ШКАЛИРОВАНИЕ РЕЗУЛЬТАТОВ ЕДИНОГО ГОСЭКЗАМЕНА

ШКАЛИРОВАНИЕ РЕЗУЛЬТАТОВ ЕДИНОГО ГОСЭКЗАМЕНА (ЕГЭ):
ПРОБЛЕМЫ И ПЕРСПЕКТИВЫ

М. Б.Челышкова,
А.Г.Шмелев

ШКАЛИРОВАНИЕ РЕЗУЛЬТАТОВ ЕДИНОГО ГОСЭКЗАМЕНА:
ПРОБЛЕМЫ И ПЕРСПЕКТИВЫ

Как известно, начиная с 2001 года в Российской Федерации вводится единый госэкзамен для всех выпускников общеобразовательных учебных заведений (принятая аббревиатура – ЕГЭ). По проблематике ЕГЭ уже выпущено немало научно-методических и научно-организационных материалов. Среди них сборники статей (Болотов, 2002), материалы конференций (Хлебников, 2001-2002). В настоящей статье рассматриваются научно-методические и социально-психологические проблемы обработки и представления результатов ЕГЭ. Проблема шкалирования является одной из центральных в системе методического обеспечения ЕГЭ. Вместе с тем до настоящего времени она решена далеко не так, чтобы удовлетворить все стороны, вовлеченные в процесс проведения и использования результатов ЕГЭ. Прежде всего в данном случае имеются в виду интересы самих учащихся и их родителей,а также самого массового отряда педагогов – школьного учительства.

Достоинства и недостатки нынешнего подхода

В 2001-2003 годах результаты ЕГЭобрабатывались в соответствиии с моделью шкалирования, разработанной в Центре тестирования Минобразования России (ЦТМО) – организации, ответственной за технологию проведения ЕГЭ (Нейман, 2002).С точки зрения пользователей результатов основные черты этой модели состоят в следующем:

1) В едином методическом центре в Москве из регионов собираются все протоколы экзамена по каждому предмету и для каждого протокола (ответов одного учащегося) подсчитываются так называемые «первичные» (или «сырые») баллы ЕГЭ. Эти баллы отражают число правильных ответов на все задания экзаменас весовыми коэффициентами, разными для заданий разных типов.Известно, что экзамен ЕГЭ состоит из частей А, В и С, где А – задания с выбором из предложенных вариантов, В – задания с кратким свободнымответом, С – задания, с развернутым свободным письменным ответом. Практически для всех предметов принята упрощенная схема весовых коэффициентов: задания А и В дают коэффициент 1, задания С – от 2 до 4. Ответы А и В проверяются автоматизированно – на компьютере. Первичные баллы по заданиям типа «С» выставляют эксперты. При этом эксперты исходят в своих оценках из предлагаемого авторами заданий диапазона оценок – от 0 до 2 (для более легких заданий), от 0 до 4 (для более сложных)и т.п.

2) После подсчета первичных баллов производится пересчет в стандартизированные, так называемые «тестовые баллы», которые измеряются на 100-балльной шкале.При этом применяется однопараметрическая модель Раша в модификации Ю.М.Неймана, которая позволяет сохранить монотонность преобразования первичных баллов в стандартизированные несмотря на взвешивание эмпирической трудности заданий. Калибровка заданий по трудности при этом происходит весьма приближенно – с точностью не до отдельного конкретного задания в отдельном варианте, а до «типового задания», занимающего определенное место (по теме и типу задания) во всех вариантах. Но уже такая калибровка дает эффект нормализации распределения баллов (в логике известной теоремы Муавра-Лапласа о приближении биномиального распределения к нормальному), хотя нынешний алгоритм шкалирования в ЕГЭ и не реализует сам по себе принцип форсированной нормализации (см. ниже в параграфе, посвященном зарубежному опыту).

3) Для стобалльной шкалы тестовых баллов предметная комиссия Минобразования разрабатывает рекомендации по переводу в пятибалльные отметки. Так как для тестовых шкал, принятых в ЕГЭ-2002-2003, фактически действует модель нормального распределения с параметрами 50+/-15 (то есть, матожидание принималось равным 50, а среднее квадратическое, или стандартное отклонение 15), Минобразование получило возможность управлять балансом традиционных оценок (в масштабе страны в целом), рекомендуемых школам для учета в аттестатах. При этом верхняя граница «двойки» в районе 30 баллов отсекает от распределения нижнюю группу численностью примерно в 10 процентов по всем предметам. Симметричнонижняя граница «пятерки» в районе 70 тестовых баллов отсекает верхнюю группу численностью также в 10 процентов. А точка 50 на этой шкале примерно соответствовала медиане и часто утверждалась (предметными комиссиями) как граница между «четверкой» и «тройкой».

Описанный здесь подход явился несомненным шагом вперед в плане создания более удобной, более стандартизированной и легкой в использовании шкалы, чемшкалы, применявшиеся ранее в Централизованном тестировании (см. Нейман, Хлебников, 2000).В целом данный подход вполне находится в русле мировых научных тенденций вобласти педагогических измерений. Наиболее ценным следствием этого подхода для практиков явился тот факт, чтоопределенным отрезкам шкалы тестовых баллов фактически поставлены в соответствие определенные вероятности эмпирической встречаемости учащихся с определенным уровнем подготовки. Это облегчает приемным комиссиям вузов планирование приема по результатам ЕГЭ.Вот как примерно выглядит соответствие между определенными точками на шкале тестовых баллов ЕГЭ и процентильными баллами (процентами от выборки испытуемых, выполнявших тест – см. словарь Балыхина, 2000)

Ниже 30 Ниже 40 Выше 50 Выше 60 Выше 70
Менее 10 процентов Менее 25 процентов 50 процентов Менее 25 процентов Менее 10 процентов

Таб.1.

Однако, не все выглядит так просто, как это сформулировано в таблице 1. На самом деле особенности алгоритма шкалирования, применяемого Центром тестирования, таковы, что этот алгоритм дает в случае различных предметов определенные (хотя иногда и малозначительные) отклонения распределения тестовых баллов от того, что мы видим в таблице 1. В силу этого вы не увидите подобной простой таблицы буквально нигде, кроме данной статьи, - ни в печатных материалах Центра тестирования, ни на сайте ЦТМОwww.rustest.ru. Более того, Ю.М.Нейман нигде не говорит о том, что приводит результаты шкалирования к нормальному распределению с параметрами 50+/-15, ибо в строго-математическом смысле это не так.

В этой ситуации участники ЕГЭ (сами учащиеся, их родители, рядовые учителя, неискушенные в математике) жалуются, что применяемая в настоящее время в едином экзамене шкала тестовых баллов им непонятна, то есть не удовляряет критерию «прозрачности». Жалобы на это обстоятельство составили едва ли не четвертую часть от общего числа всевозможных жалоб, поступивших по Интернету в редакцию портала информационной поддержки ЕГЭв Интернетеhttps://www.ege.edu.ru (анализ остальных жалоб выходит за пределы тематики данной статьи). Например, на экзамене по русскому языку в ходе ЕГЭ-2003 десятки учащихся возмущались, почему им «срезали» баллы – заменили после шкалирования их более высокие первичные баллы на более низкие тестовые. Он не понимали ни смысла, ни процедурного механизма подобного пересчета. Оказалось крайне трудным делом объяснять выпускникам средней школы, которые не проходят ни основы статистики, ни теорию измерений, почему сравнительно легкий тест (каким является русский язык для большинства носителей русского языка как родного) при наличии положительной асимметрии (то есть, при сдвиге медианы к высокому полюсу на шкале первичных баллов) дает автоматически более низкие стандартизированные (тестовые) баллы по сравнению с первичными при данной процедуре шкалирования именно для сильных учащихся (для высокой группы).

Другой (и более серьезный!) недостаток применяемой в ЕГЭ 100-балльной шкалы заключается в том, что она вызывает сплошь и рядом ассоциацию со шкалой процентов, в то время как никоим образом не является таковой. Если сертификаты Централизованного тестирования (см. образцы в изданиях Центра тестирования Минобразования РФ) еще снабжаются так называемыми «рейтинг-баллами», проинтерпретированными на обороте сертификатов в терминах процентов (что дает учащимся и другим пользователям шанс не путать тестовые баллы и проценты), то свидетельства ЕГЭ такой дополнительной информацией не снабжаются (см. образец в сборнике «Единый государственный экзамен. Сборник нормативных документов», 2002).В свидетельствах ЕГЭ можно найти по каждому предмету только один тестовый балл,и нет никаких сведений о том, какое место занял учащийся, располагающий этим баллом, среди всех сдававших ЕГЭ в этом году.

Опросы, проведенные на портале ege.ru, показали, что не только учащиеся и учителя школ, но и преподаватели вузов слишком часто интерпретируют тестовые баллы ЕГЭ как отражающие процент решенных заданий или процент учащихся, набравших более низкий балл. Многие вузовские приемные комиссии, устанавливая свой «проходной» балл, например, равным 90, ошибочно полагают, что отсекают тем самым либо 90 процентов возможных абитуриентов, либо людей, допустивших более 10 процентов ошибок в ходе ЕГЭ.
Даже нынешний министр образования В.М.Филиппов в пылу полемики по телевидению или радио не раз допускал оговорки, что нижняя граница пятерки – балл 70 – указывает на то, что учащийся решил не менее 70 процентов заданий.

Статистические исследованияданных ЕГЭ 2001-2002

Есть определенные проблемы научного характера, связанные с подходом, выбранным для шкалирования результатов ЕГЭ. В частности, не имеет пока позитивного ответа вопрос о правомерности применения модели Г.Рашак эмпирическим данным при преобразовании сырых баллов выпускников в шкалированные баллы. Сомнения в правомерности порождаетанализхарактеристик распределения сырых баллов выпускников, проведенный в рамках НИР 2000 - 2002 годов по трем случайно выбранным вариантам четырех предметов (математика, история, русский язык, химия). Полученные по результатам НИР данные говорят о том, что многие характеристики распределения сырых баллов не в полной мере отвечают совокупности необходимых условий, без которых использование моделиРаша для шкалирования в теории пкдагогических измеренийсчитается недопустимым, поскольку может привести к неправильной интерпретации результатовшкалирования.
Среди наиболее важных необходимых условийв рамках НИР анализировались условияадекватности эмпирических данных ЕГЭ требованиям модели Раша, параллельности вариантов, одномерности пространства измерений, обуславливающейвозможность представления результатов выпускников на одной шкале по различным частям КИМ и ряд других не менее важных условий. Выполнение перечисленных условий необходимо для реализации свойстванезависимости оценок уровня подготовленности испытуемыхот трудности заданий теста. В свою очередь, на инвариантности оценок параметра подготовленностистроится переход кинтервальной шкале баллов, то есть реализация того преимущества, которое и заставляет, в основном, обратиться к сложной в использовании, но эффективной модели современной теории измерений в образовании. Сложность здесь видится конечно не в технической реализации алгоритмов теории, а в выполнении всей совокупности необходимых условий, без которых использование модели Раша при шкалировании теряет всякий смысл, поскольку создается лишь видимость реализации всех преимуществ этой теории. На деле же объективность оценок испытуемых, их сопоставимость и представимость в интервальной шкале, позволяющей в отличие от шкалы сырых баллов интерпретировать разность тестовых баллов по одному или по различным вариантам теста, не достигаются.

Проверка адекватности эмпирических данных требованиям модели измерения осуществляетсяспециальной процедурой, получившей в тестологической литературе название подгонка данных (\\"Within population item-fit\\"). По результатам проверки выбраковываются эмпирические данные, не удовлетворяющие требованиям модели измерения, что приводит к удалению части заданий до шкалированиярезультатов выпускников по модели Раша. Оставшиеся задания дают основания для построения одномерной шкалы баллов, поскольку являются внутренне согласованными, однородными по содержанию и работают на оценивание одной и той же переменной.Положениеосложняет необходимость проведения процедуры подгонки не только по заданиям, но и по испытуемым, которых тоже следует удалять из обработки данных в силу несогласованности результатов испытуемых с требованиями модели измерения. Поэтому в мировой практике принято проводить длительную апробацию и коррекцию тестов на репрезентативных выборках учащихся для того, чтобы добиться в ситуации экзамена адекватности эмпирических данных тестирования требованиям модели измерения, сохранив тем самым всю совокупность испытуемых и заданий теста.
Анализ данных по трем случайно выбранным вариантам КИМ по математике, истории, русскиому языку и химиипоказал наличие проблем. В соответствии с критерием отбраковки заданий, предлагаемому теорией и используемому в практике деятельности западных служб тестирования, удалению подлежат от 50% до 70% заданий и не менее 10% результатов выпускников по анализируемым вариантам. Ситуация вполне прогнозируемая, поскольку использование модели Раша при шкалировании предполагает длительную (не менее 2-3 лет) тщательную отработку теста, отсутствующую в условиях ЕГЭ. В этой связи, возникают сомнения в том, что проблема шкалирования результатов ЕГЭ на сегодняшний день решена удовлетворительно, по крайней мере анализадекватности эмпирических данных ЕГЭ требованиям модели Раша говорит о необходимости измененияподхода к шкалированию.
Дополнительным подтверждением последнего утверждения служат результаты углубленного содержательного анализа характеристик КИМ, основанного на обработке эмпирических данных ЕГЭ и последующей интерпретации.Дело в том, чтопри использовании математических моделей современной теории следует учитывать, что процедура построения шкалы латентных переменных порождает вероятностную версию шкалGuttman, последние попадают в класс моделей, известных как жестко детерминированные. В них предполагается, что задания теста отбираются в порядке нарастания их трудности по определенным, тщательно структурированным элементам содержания дисциплины. При этом считается, что любой испытуемый с правильной структурой знаний, справившийся с даннымзаданием теста, может наверняка успешно выполнить все предыдущие, более легкие задания.
Шкалирование по Рашу, в определенной степени, преодолевает трудности построения шкалы Guttman, поскольку является вероятностной версией и отражает вероятностную сущность тестовых процессов. Согласно модели Раша о правильном выполнении любого задания испытуемым можно говорить лишь с некоторой вероятностью и прогнозировать успешность лишь в том случае, если эта вероятность близка к единице. Это означает, что каждое задание теста, данные которого обрабатываются с помощью модели Раша, должно иметь высокую биссериальную корреляцию с критерием – общим показателем по тесту и являтьсявесьмадискриминативным в некоторой точке на континуальной оси измеряемой переменной.
Таким образом, шкалирование по Рашу означает специальный отбор заданий для теста в порядке нарастания трудности из банка данных. В критерии отбора помимо прочих соображений должно входить требование того, что правильное выполнение испытуемым какого-либо задания означает высокую вероятность правильного выполнения предыдущих более легких заданий теста, наоборот, неправильное выполнение задания позволяет прогнозировать с высокой вероятностью неправильное выполнение последующих более трудных заданий теста. Это требование легко применимо к хорошо структурированным дисциплинам, однако, во многих предметах, в частности, как показал анализ данных ЕГЭ-2002, по истории, его выполнить достаточно сложно.
В целом, можно сказать, что используемая модель измерения должна соответствовать объекту измерения, что для многих предметов в силу слабой структурированности содержанияи отсутствия специальной методики отбора заданий в КИМ ЕГЭ не выполняется на практике. Как показал анализ во многих предметах задания КИМ далеко не всегда коррелируют на соответствующем уровне значимости с общими показателями по измеряемой переменной, что дает основания для заключения о непригодности модели Раша для шкалирования данных ЕГЭ.
Еще одна проблемас правомерностью использования модели Раша для шкалирования результатов ЕГЭ связана с требованием одномерности. Построение шкалы типа Guttman, нарастание трудности заданийи структурированность содержания на основе экспертных оценок не гарантирует одномерность. Возможно, что легкое, среднее и весьма трудное задание образуют шкалу типа Guttman, но каждое из них измеряет что-то свое, поэтому без специальных исследований и проведения факторного анализа непонятно – по какой переменной измерения строится шкала результатов испытуемых. Исследования результатов ЕГЭ, проведенные по данным 2001-2002 годов (по трем предметам), достаточно однозначно ответили на вопрос о правомерности предположения об одномерности. Анализ характера распределения частотответов на части КИМ А, В и С и соответствующая обработка данных распределений позволили сделать выводы о том, что они представляют собой самостоятельные совокупности, которые не должны формальным образом без учета природы данных объединяться в одно множество в процессе шкалирования результатов выпускников.
Таким образом для ситуации щкалирования результатов выпускников, по крайней мере по трем предметам, характерна многомерность, при которой задания КИМ оценивают выпускника по целому набору переменных, к числу которых могут быть отнесены его знанияи умения, его способности к обучению и т.п. Поэтому при оценивании выпускников на концептуальном уровне прежде всего необходимо решить, что именно будет измеряеть этот набор переменных, как интегрировать оценки по отдельным переменным,какую способность, какой уровень подготовки выпускника можно получить в результате такой интеграции, а затем путем статистического анализа эмпирических данных сделать вывод о том, состоялось ли измерение и позволяет ли такой набор измеряемых переменных сделать вывод о возможностях обучениявыпускников в ВУЗах.Посколькупространство измерений в ЕГЭ многомерно, что не вызывает сомнений, то следует выделить подшкалы и определить: что меряет каждая одномернаяподшкала, а затем разработать корректные методы интеграции и интерпретации данных. В целом, можно сделать вывод о необходимости дальнейшей работы по выравниванию вариантов, исследованию размерности пространства измерений, созданию репрезентативных выборок, без которых немыслимо проведение подобных работ.
Итак, возникает очевидное противоречие между выбраннымподходом к шкалированию результатов ЕГЭ и требованиями теории на фоне явного непонимания подхода со стороны пользователей в силу его расхождения смассовыми представлениями о тестовых шкалах. Какую же стратегию следует выбирать в этой ситуации: следует ли подтягивать массовые представления до уровня научных, добиваясь популяризации азов теории педагогических измерений, или следует упростить процедуру шкалирования, добиваясь ее большей прозрачности для населения?

Зарубежный опыт

Теперь посмотрим, как обстоит в этом отношении дело в западных странах с развитыми традициями использования количественных шкал для оценки образовательных достижений.

Самые популярные шкалыоценки образовательных достижений в западных странах отличаются от нашей традиционной пятибалльной шкалы (на самом деле четырехбалльной) наличием двух совмещенных систем – очковой(scores) и отметочной (grades). Очковая система, как правило, выглядит как 100-балльная шкала, а отметочная задается в простейшем случае путем равномерного деления 100-балльной (Gronlund, Linn, 1990):

0 – 20 21 – 40 41 – 60 61 – 80 81 – 100
E D C B A

Taб. 2

Такой подход позволяет более тонко дифференцировать оценки внутри каждой отметки (категории достижений) – 20 ступенек внутри категории «А», столько же внутри «В» и т.п. Хотя следует отметить, что в чистом виде такой подход скорее применяется лишь для текущего, но не для итогового контроля.

В плане итогового контроля особого внимания заслуживают 2 разные традиции, представленные американской и британской школами. В США педагогические измерения развивались в 20 столетии в большей мере под влиянием психометрики. В США уделялось больше внимания тестам с выбором ответа, так как последние позволяют применять более строгие математико-статистические модели анализа результатов (Standards for educational and psychological tests, 1974). В Великобритании развивалась традиция, придающая большее значение экзаменованию продуктивных умений – способности к выводу теорем, порождению текста, обоснованию ответа и т.п. В этом смысле британская школа ближе к нашей отечественной. Но, как мы увидим ниже, подход к шкалированию результатов ЕГЭ оказалсяу нас пока ближе к американскому.

Как известно, в США не существует централизованной государственной системы образовательных экзаменов. Но при этом огромной популярностью пользуются тесты, разработанные в ETS (Education Testing Service)- фирмой-лидером в данной области. Миллионы американских выпускников школ, желающих поступить в университеты, выполняют тест SAT (Scholastic Aptitude Test, 1998), разработанный ETS и проходящий ежегодное обновление (каждый год появляются новые варианты SAT – подобно тому, как ежегодно обновляются задания ЕГЭ). Результаты теста SAT выражаются на шкале тестовых баллов с параметрами 500+/-100 (аналогичная шкала применяется в более широко известном в России теста TOEFL, также разработанным фирмой ETS). Применяемая при шкалирования процедура форсированной нормализации (с помощью функции обратного нормального интеграла) дает однозначное соответствие между определенными точками на шкале SAT стандартизированных баллов и процентильными баллами

Ниже 300 Ниже 400 Выше 500 Выше 600 Выше 700
Менее 3-х процентов Менее 16 процентов 50 процентов Менее 16 процентов Менее 3-х процентов

Таб 3.

Следует отметить, что тысячебалльная шкала с параметрами 500+/-100 использовалась нами в России в 1997-2001 гг. для фиксации результатов компьютерной олимпиады «Телетестинг» (см. Шмелев, 2000). Выбор подобной шкалы был продиктован использованием в «Телетестинге» (также как и в тесте SAT) исключительно заданий с выбором ответа.

Сравнивая таблицу 1 и таблицу 3, мы можем, казалось бы, констатировать высокую степень сходства двух подходов- российского и американского. Более того таблица 1 кажется даже более удобной для практического использования. Но тут же стоит зафиксировать 2 существенных различия:

1) Американская шкала SAT оперирует 1000-балльной, а не 100-балльной системой оценок, что исключает риск неправильных ассоциаций с процентами и подталкивает к явному использованию таблицы.

2) Нынешняя шкала российского ЕГЭ в силу специфики алгоритма шкалирования не всегда подчиняется закономерности, описанной в таблице 1 (об этом мы уже писали выше).

Итак, теперь рассмотрим, как обстоит дело со шкалированием в Великобритании – в стране, в которой первые специализированные организации, занимающиеся разработкой экзаменационных технологий, созданы уже полтора века назад (Экзаменационный синдикат в Кэмбридже, например).В этой страневыпускники основной школы сдают экзамен GCSE – на «общий сертификат о среднем образовании». Эта система экспортируется в десятки стран мира, причем не только те, которые входят в Британское содружество наций (Cambridge International Examination, 2000). По каждому предмету экзамен состоит из частей, в которых собраны задания определенного типа: на выбор ответа, с кратким ответом, структурированные вопросы, с развернутым ответом, эссе, практические работы. На каждую часть экзамена отводится определенное время. За каждую часть присваивается определенное количество очков в процентах к общему баллу. В некоторых случаях балл GCSE набирается по принципу «портфолио» («портфель достижений»), так как включает накопление очков за выполнение практических работ, за получение определенных оценок в школе и т.п. Практически по каждому предмету существует 2 версии экзаменов по уровням: «ядерный» (core) и «расширенный» (extended), что у нас чаще обозначаетсяв терминах курсов или учебных программ - «базовый» и «углубленный». Расширенный вариант, как правило, включает ядерный как подмножество. Достижения по выполнению «ядерного» варианта фиксируются на 100-балльной шкале очков, а по выполнению «расширенного» варианта – на 200-балльной шкале (хотя и не всегда). Причем считается, что учащийся, который сдает экзамен на расширенном уровне набирает больше 100 процентов очков (!). Затем 200-балльная шкала GCSE по каждому предмету разбивается на 8 градаций (grades) по уровням достижений:A+, A, B, C, D, E, F, G. Учащиеся не обязаны выполнять экзамен в «расширенном» варианте, но это ограничивает их достижения. Выполнение экзамена на «ядерном» уровне дает возможность получить градации (отметки) не выше С. Для получения более высоких оценок следует выполнять «расширенный» вариант экзамена.
Вот как выглядит, например, таблица начисления баллов за экзамен по естествознанию (physical science):

Номер компо
нента Название
Компонента Длительность Вес в общем балле (в %)
1 Выбор ответа 45 минут 40
2 С кратким ответом 60 минут 40
3 Структурированные вопросы и со свободным ответом 75 минут 80
4 Школьная оценка практических навыков - 20
5 Тест практическиз навыков 90 минут 20
6 Альтернативное задание практическому тесту 60 минут 20

Комбинация компонент в зависимости от курса (curriculum):

Курс Компоненты
Ядерный (базовый) 124 1 2 5 12 6
Расширенный (профильный) 1234 1235 1236

Таким образом, мы видим, что компоненты 4, 5 и 6 оказываются альтернативными, то есть 20 очков можно набрать либо путем засчитывания школьного балла, либо путем выполнения практической работы в момент сдачи экзамена. За расширенный курс ставится до 180 процентов очков. При этом вес части со свободным ответом достигает почти 45 процентов очков от возможного максимума за расширенный курс естественных наук.

Конечно, в таком виде британская система шкалирования (точнее баллирования) выглядит более запутанной и менее логически цельной, менее формализованной, чем американская. Но она имеет ряд достоинств, которые следует учесть именно в контексте нашей уже складывающейся отечественной модели ЕГЭ:

1) Учащимся легко ориентироваться в том, как складывается их итоговая оценка по частям экзамена, ибо вес каждой части заранее объявлен.

2) Внутри отдельных частей экзамена сохраняется возможность применения более сложных математических процедур шкалирования (предполагающий калибровку заданий по статистике ответов и т.п.).

3) Введение весовых (долевых) отношений между частями экзамена гарантирует высокий вес неформализованных заданий со свободным ответом (подобно тому, как в экономическом планировании защищается определенная статья бюджета).

4)Учащийся свободен в выборе варианта экзамена (базового или расширенного) и заранее знает, во сколько очков обернется для него тот или иной выбор.

5) Сохраняется универсальность ранговых шкал учебных достижений (отметок), так как шкалы отдельных вариантов экзамена оказываются вложенными (базовая шкала вложена в расширенную).

6) Использование расширенной шкалы, на которой можно набрать больше 100 процентов очков, создает благоприятную психологическую атмосферу, защищающую самооценку учащихся, которые в состоянии освоить только лишь базовую программу, но набирают при этом все-таки почти 100 процентов очков.
Как видим, по ряду признаков наш ЕГЭ ближе к британской системе экзаменов. В частности, по наличию в каждом экзамене части «С» - заданий со свободным развернутым ответом. Но применяется в нашем ЕГЭ не британская, а американская система шкалирования. В результате учащиеся у нас понимают, как подсчитываются первичные баллы, сколько очков весит каждое задание типа «С» и сколько весит эта часть в общей сумме первичного балла, но… никто не понимает, сколько эта часть весит в итоговом тестовом балле.И эта не единственный недостаток действующей системы шкалирования результатов нашего единого экзамена.
Наличие в британской системе расширенной шкалы до 200 процентов наводит на мысль о том, что и в России – с ее резкими контрастами в уровне образовательной подготовки учащихся из городов и сел, из разных регионов – было бы гораздо гуманнее применять не шкалу со средним значением в районе 50 (что многими до сих пор интрерпретируется как исключительно низкий процент усвоения школьного материала – «больше половины»), а шкалу, которая обеспечивала бы социально-психологическую защищенность выпускников школ, не получивших в своих школах (не по своей вине) высокого качества образовательных услуг. Возможно, что применение такой более гуманной системы шкалирования снизило бы в определенной степени недовольство населения внедрением ЕГЭ, которое до сих пор наблюдается в весьма массовом порядке.

Субъективные шкалы

Чтобы создать шкалу, понятную для населения, следует изучить, какие представления об оценивании образовательных достижений стихийно сложились в головах у массы педагогов и самих учащихся в Российской Федерации. Для этого авторы данной статьи провели в течение ряда последних лет несколько различных эмпирических исследований, опрашивая школьников, студентов, педагогов, методистов, участвовавших в различных конференциях. Не утомляя здесь читателя подробностями данных эмпирических исследований, позволим себе лишь суммировать основные результаты.
Существующая пятибалльная система оценивания явно испытывает в России определенную девальвацию. Она выразилась, в частности, в том, что изначальный смысл, который приписывается градациям пятибалльной шкалы в самих известных названиях («отлично, «хорошо», «удовлетворительно»), уже давно фактичепски трансформировался. Оценка «отлично» вовсе не воспринимается подавляющим большинством как полное освоение всего материала плюс освоение дополнительного материала. Оценка «отлично» рассматривается лишь как относительная категория, указывающая на более высокую степень превосходства над средним уровнем, чем это достигается в случае оценки «хорошо». Вот какие смысловые градация имеют наши привычные оценки фактически:

Двойка Тройка Четверка Пятерка
Явно ниже среднего уровня Несколько ниже среднего уровня Несколько выше среднего уровня Явно выше среднего уровня
Таб. 4

Как видим, такая трактовка смысла оценок находится в полном соответствии с тестологическим подходом, описанном в таблицах 1 и 3.

А как все-таки соотносятся наши традиционные оценки с охватом учебного материала? Для выяснения этого мы оправшивали сотни респондентов о том, какой процент материала усваивают, с их точки зрения, «отличники», какой усваивают «хорошисты», какой «троечники». Выяснилось, что в сознании педагогов-методистов чаще присутствует следующая шкала:

Двойка Тройка Четверка Пятерка
Менее 50 процентов материала От 50 до 70 процентов От 70 до 90 процентов Не менее, чем 90 процентов
Таб. 5

Можно уверенно сказать, что статистика ЕГЭ опровергла данные идеализированные представления педагогов-методистов. По многим предметам «отличники» явно недотягивали до первичных баллов в 90 процентов от максимума.

А в сознании самих учащихся эта же шкала чаще всего выглядит более реалистичной:
Двойка Тройка Четверка Пятерка
Менее 40 процентов материала От 40 до 60 процентов От 60 до 80 процентов Не менее, чем 80 процентов
Таб. 6

Легко видеть, что наши учащиеся уже приблизились к международному стандарту, представленному таблице 2.

Совершенно, очевидно, что оптимальная шкала ЕГЭ должна больше соответствовать распространенным субъективным представлениям. Без этого единому экзамену очень трудно завоевать реальную популярность у населения.

Принципы

Было бы неправильно ограничиться в данной статье лишь критикой действующего подхода и аналитическими аргументами. Авторы считают своим долгом сформулировать конструктивные предложения по модификации шкалы единого госэкзамена. При этом еще раз изложим принципы, на которых должна быть построена такая шкала:

1) Принцип прозрачности. Шкалирование результатов ЕГЭ должно быть понятным для самых широких масс участников ЕГЭ и его организаторов. Люди должны видеть и понимать, как в самой процедуре шкалирования реализуется принцип объективности в оценивании образовательных достижений и справедливости конкурсного отбора в вузы.
2) Принцип гуманизма. Шкала ЕГЭ должна обеспечивать социально-психологическую защищенность выпускников школ, которые не ставят своей целью дальнейшее изучение данного предмета в вузе.
3) Принцип единства. Шкала ЕГЭ должна быть универсальной и оценивать в различных количественных показателях достижения учащихся, прошедших как программу базовой школы, так и программу профильной (специализированной) школы. Было бы неправильно оценивать одним и тем же числом достижения по математике выпускников гуманитарных гимназий и физико-математических лицеев.
4) Принцип научности. Шкалирование результатов ЕГЭ должно базироваться на достижениях математизированной теории педагогических измерений. Не следует отказываться от возможности калибровать отдельные задания на основе реальных статистических данных массового экзамена, тем более что в ходе самого ЕГЭ мы получаем весьма репрезентативные результаты.
5) Принцип программирующего воздействия. Шкалирование результатов ЕГЭ не должно развиваться в отрыве от конструирования контрольно-измерительных материалов (КИМ). Напротив, придание определенного веса определенным частям экзамена должно определять значимость данной части в контексте КИМов в целом. Более того, следует, по-видимому, открыто признать, что взвешивание частей экзамена – это задача, имеющая самое прямое отношение к государственной образовательной политике. То или иное решение этой задачи имеет весьма серьезные последствия, а именно сказывается на приоритетах в самом учебном процессе – на том, какое внимание будут уделять педагоги формированию тех или иных учебных умений.
6) Принцип соответствия интересам конкурсного отбора в вузы.Результаты ЕГЭ должны информировать таких ключевых пользователей, как приемные комиссии вузов, о том, какое место данных учащийся занял, получив данный балл ЕГЭ, в общероссийском рейтинг-листе образовательных достижений.
7) Принцип плавного отказа от привычных представлений. Привычная для российской школы «пятибалльная оценочная система» должна отмирать постепенно – путем сосуществования в рамках ЕГЭ с более дробными шкалами, а также с расширенными шкалами, соответствующими интересам профильных школ и вузов.
8) Принципподдержки ГИФО. Шкала ЕГЭ должна логичным образом увязываться с возможным выделением государственных именных финансовых обязательств. (Хотя авторы статьи и не считают нынешнюю технологию ЕГЭ достаточно защищенной для того, чтобы выдержать риск начисления крупных сумм денег по результатам ЕГЭ).

Перспективная модель

На основании вышеизложенных принципов, конечно, возможно выдвижение разных моделей, но мы позволили бы предложить следующий подход:

1) 100-балльная шкала ЕГЭ сохраняется только для базовой версии ЕГЭ, которая включает задания с выбором ответа (от 30 до 60 очков по разным предметам), с кратким ответом (от 10 до 40 очков по разным предметам), а также школьный балл за итоговую контрольную работу (от 10 до 30 очков по разным предметам).
2) Стобалльная шкала ЕГЭ использует только первичные баллы и интерпретируется очень просто- в терминах процента правильно решенных заданий.
3) Для 100-балльной шкалы ЕГЭ заранее объявляются границы отметок с использованием традиционной «пятибалльной шкалы»:«пятерка» - от 81 до 100, «четверка» - от 61 до 80, «тройка» - от 41 до 60.

Все три изложенный выше правила призваны обеспечить следующие принципы: прозрачности (принцип 1), гуманизма (2) и «плавного отказа» (7)

4) К стобалльной шкале ЕГЭ добавляется «расширенная шкала ЕГЭ», котораявключает от 100 до 200 очков (по разным предметам). Дополнительные 50 или 100 первичных очков учащиеся получают за решение заданий типа «С» (с развернутым ответом) или (и) за выполнение практических работ (например, за прохождение устной беседы по иностранному языку). Эти дополнительные задания учитывают программу «профильной школы».
5) Для соблюдения принципа единства баллы по расширенной шкале должны отображаться нев виде обычных «пятерок» и «четверок», а в виде баллов, превышающих «пятерку». Простейший вариант отображения таков:

Шестерка Семерка Восьмерка Девятка Десятка
От 101 до 120 От 121 до 140 От 141 до 160 От 161 до 180 Не менее,
чем 181
Таб. 7

При этом важно подчеркнуть, что в итоговый балл за расширенный экзамен входит оценка за базовую часть. Например, учащийся Петров набрал за дополнительное задание 82 очка, но за базовую часть только 70 очков. Тогда его итоговый результат будет равен не 182 очкам, а только 152 очкам («восьмерка», а не «десятка»).

Правила 4 и 5 обеспечивают выполнение принципов «единства» (принцип 3), «программирующего воздействия» (5), «конкурсного отбора» (6).

Ну а как же обеспечить в таком случае выполнение принципа научности? Для этого мы считаем необходимым указывать в свидетельстве по итогам ЕГЭ, как минимум, 2 разных результата: первичный балл (в виде процента от максимального балла) и тестовый балл. Второй следует получать с помощью применения современной процедуры шкалирования, позволяющий учесть различный вклад заданий по данным объективной статистики.Но было бы гораздо лучше выражать тестовый балл не на 100-балльной шкале, а на 1000-балльной. Чтобы никто не путал этот балл с процентами.
На переходный период (пока внедрение ЕГЭ не завершилось) не следует избегать наличия и сосуществования по результатам ЕГЭ сразу нескольких оценок, в которых используются различные принципы шкалирования.Ведь новое познается с опорой на старое. Ведь хватило ума нашему правительству после 1000-кратной деноминации рубля в РФ в 1998 году не сразу изымать из обращения купюры с огромным количеством нулей. Точно также в англоязычных странах переходили к десятичной системе мер длины – указывали рядом с сантиметрами старые футы и дюймы. Этот подход, учитывающий множественность шкал, является более психологичным. Если люди имеют рядом с новой и непонятной мерой старую и понятную, то они легче привыкают к новой – с опорой на старую.
Было бы еще более разумным шагом не ограничиваться в свидетельствах о результатах ЕГЭ двумя числами (первичным и тестовым баллом), но указать еще и третье число – «рейтинг-балл», указывающий на то место, который занял данный экзаменуемый среди всех учащихся в России в текущем году. Ведь подобная традиция фиксации результатов фактически принята во всех видах спорта: рядом с результатам в секундах (метрах, килограммах и т.п.) указывается место, которое занял спортсмен с этим результатам в состязании.
Множественность оценок в свидетельствах ЕГЭ не повысит, а наоборот снизит неопределенность в головах пользователей результатов. Это доказал опыт и Централизованного тестирования (как уже говорилось выше, в сертификатах ЦТ указываются два показателя), и «Телетестинга» (в сертификатах «Телетестинга» давались 4 показателя – кроме тестового и рейтингового балла, давались первичные баллы ирекомендуемые традиционные отметки).
Использование трех (или даже четырех!) различных показателей в свидетельствах ЕГЭ позволит учестьпринцип 8 - «поддержка ГИФО». Дело в том, что ГИФО никак нельзя привязывать к первичным баллам и отметкам (столь понятным и простым для населения), но можно привязывать лишь к тестовым и рейтинг-баллам. Это обеспечит защищенность бюджета государства от незапланирования перерасходования средств на образовательные нужды. А главное – это повысит защищенность ЕГЭ от соблазна местных организаторов «повысить всем своим сразу».
Предложенный нами подход несомненно улучшил бы понимание результатов ЕГЭ самыми широкими категориями пользователей – от учащихся, родителей, школьных учителей до работников приемных комиссий вузов. Хотя вполне возможно, что данный подход еще встретит весьма горячие контраргументы со стороны специалистов, обожающих споры в форме высказываний типа «А версты все же гораздо удобнее, чем километры».
Помимо выбора оптимального подхода к шкалированию, для повышения объективности и сопоставимости шкалированных баллов выпускников необходимо также проведение ряда неотложных работ, направленных на повышение качества КИМ, процедур применения, обработки данных и интепретации результатов выполнения тестов, поскольку возможностьоптимизации процедур шкалирования и выравнивания находится в прямой зависимости от качества выборки, используемой для построения шкалы и от качества КИМ.Здесь логика очень проста: если не обеспечено должное качество самих КИМ, выполнение условий параллельностивариантов, требований к характеристикам заданий и адекватность характеристик распределения эмпирических данных ЕГЭ требованиям моделей измерения, то нет и не может быть корректных процедур шкалирования и выравнивания.
В этой связи,поскольку значительное число вариантов КИМ по результатам анализа является статистически значимо различающимися, то необходимо наибольшие усилия сосредоточитьна работе по улучшению параллельности вариантов. Следует повысить качество проведения апробации заданий и вариантов, причем выполнять подгонку эмпирических данных под требования используемых моделей измерения при помощи коррекции статистических свойств КИМ еще на стадии апробации.
Основываясь на международном опыте (для корректного шкалирования 180 000 результатов испытуемых необходимо не менее трех недель и значительная предварительная работа), для шкалирования результатов по обязательным экзаменам пойти попринятому в зарубежных тестовых службах пути, обеспечивающему максимально возможную корректность результатов испытуемых при массовом тестировании и максимальную эффективность процесса шкалирования.Предлагаемый подход основан на созданииаприорной до начала тестирования репрезентативной выборки, на которой затем строится шкала в процессе массового тестирования. Построение шкалы на небольшой, но репрезентативной выборке при больших объемах тестирования позволяет значительно сократить время обработки всего массива данных, поскольку результаты остальных учащихся просто отображаются на готовую шкалу.

ЛИТЕРАТУРА

1. Балыхина Т.М. Словарь терминов и понятий тестологии. – М: МГУП, 2000. – 161 с.
2. Болотов В.А. (редактор) Единый государственный экзамен. Сборник статей. – М.: Логос, 2002. – 208 с.
3. Единый государственный экзамен. Сборник нормативных документов. – М.: Минобразования РФ, 2002. – 233 с.
4. Нейман Ю.М. Шкалирование результатов единого госэкзамена. – М: ЦТМО, 2002.
5. Нейман Ю.М. Хлебников В.А. Введение в теорию моделирования и параметризации педагогических тестов. Москва: Прометей, 2000.
6. Рэш Дж. Индивидуальный подход к анализу вопросов. – В кн. «Математические методы в социальных науках» - М.: Прогресс, 1973, стр. 91- 116.
7. Хлебников В.А. (редактор)Развитие системы тестирования в России. – Материалы ежегодной Всероссийской конференции. – М: ЦТМО, 2001-2003.
8. Челышкова М.Б. Разработка педагогических тестов на основе современных математических моделей. – М: МИСИС, 1995.
9. Шмелев А.Г. (редактор) Тесты для старшеклассников и абитуриентов. Телетестинг.– Москва: Первое сентября, 2000.– 132с.
10. Cambridge International Examination. -Cambridge (UK): Local Examinations Syndicate, 2000. – 61 p.
11. Gronlund N.E., Linn R.L. Measurement and Evaluation in Teaching. 6th edition.– N.Y.-L.: Macmillan, 1990. – 525 p.
12. Manual for Scholastic Aptitude Test. – Prinston (N.J.): ETS, 1998.
13. Standards for educational and psychological testing. – Washington: American Psychological Association, 1974.

ШКАЛИРОВАНИЕ РЕЗУЛЬТАТОВ ЕДИНОГО ГОСЭКЗАМЕНА

Категории:

Поделитесь этой записью или добавьте в закладки

Полезные Энциклопедии

Народные рефераты

Полезные сборники

Образование

Полезные заметки

Полезные публикации