Руководство к тесту
составляется для его пользователей —
организаций, специальных психологических
служб, профессиональных психологов,
педагогов, психиатров и некоторых
других специалистов. В руководстве,
как правило, излагаются следующие
сведения о тесте:
-
сведения о процедуре
разработки (теоретическое и операционное
определение, сфера применения, данные
о выборке, на которой проводилась
стандартизация, анализ пунктов теста,
валидности и надежности); -
требования к применению
(область распространения теста,
требования к пользователям, описание
процедуры проведения, стандарт тестового
материала); -
данные по обработке и
интерпретации результатов (образцы
регистрационного бланка и ключей,
процедура обработки таблицы для
перевода «сырых» баллов в стандартные
шкалы (нормы), примеры интерпретации
результатов).
А. Общие требования к информации,
содержащейся в руководстве.
Пользователи тестов
нуждаются в информации, которая
помогла бы применить тест стандартным
образом и оценить его в сравнении с
другими тестами, которые можно выбрать
для данной цели. Автор теста должен
представить хотя бы частичную
информацию, в которой нуждается
пользователь при выборе теста или при
его использовании. Практика авторов и
издателей в представлении информации
разнообразна. По некоторым тестам
пользователю представляются только
нечеткие указания к тестированию и
нормы для оценивания результатов, да
и те неизвестного происхождения.
Наоборот, другие тесты имеют руководства,
в которых представлена обширная и
детальная информация о разработке
теста, его валидности и надежности, а
также нормах, видах интерпретации
результатов и возможных областях
его применения.
А.1.
Когда тест становится доступным для
операционного использования, он должен
сопровождаться руководством, для того
чтобы сделать реальными требования,
которые предъявляются к его применению.
(Существенно.)
Комментарий.
Под термином «операционное пользование»
подразумевается принятие практических
решений относительно оценивания
индивидов, групп, учебных предметов,
терапевтической интерпретации и т.
д.
В зависимости от объема
сообщаемой информации, разнообразия
областей применения и пользователей,
термин руководство» может означать
документы монографического характера
или серию отдельных публикаций.
Данный термин может также
распространяться на процедурное
руководство по использованию тестов
или их батарей, например в ситуации
отбора; словесная формулировка и
значение данных о стандартных требованиях
могут быть иными для процедурных
руководств, однако принципы составления
руководства к тестам аналогичны.
А.1.1.
Если некоторая информация, необходимая
для подтверждения интерпретации
результатов, предложенных в руководстве,
не может быть представлена ко времени
публикации руководства, требование
А.1 может быть удовлетворено подчеркиванием
отсутствия и важности такой информации.
(Существенно.)
А.1.2.
Если информация слишком обширна для
сообщения в руководстве, она должна
быть обобщена и сопровождена ссылками
на другие соответствующие источники,
статьи или книги. (Очень
желательно.)
Комментарий.
Некоторые тесты имеют или объемные
технические руководства, или включают
соответствующую информацию в справочники
для пользователей, которые рекомендуются
для консультации. В других случаях
в руководстве дается только
существенная информация и ссылка
на другие полезные источники.
Публикации других лиц, не
связанных с автором теста, часто
выполняют многие функции руководства
к тесту. Если подобная публикация о
тесте предназначена в качестве
руководства, ее автор и издатели
отвечают за тест в той же степени, как
и авторы теста.
А.1.2.1.
Когда информация представлена
автором или издателем в отдельной
публикации, эта публикация должна
соответствовать тем же требованиям,
что и руководство, и не содержать
моментов, ведущих к ошибкам, так же,
как это требуется от руководства.
(Существенно.)
А.1.2.2.
Дополнительный материал к тесту должен
быть точным и полным и не должен давать
повода для ошибочного понимания.
(Существенно.)
Комментарий.
В случае, когда публикатор приводит
обширную и исчерпывающую библиографию
исследований, касающихся теста,
желательно снабдить ее комментариями
аннотациями.
А.1.2.3.
Информационный материал, предназначенный
для пользователя, не являющегося
специалистом в данной области, должен
быть точным, полностью соответствовать
целям его обращения к данному материалу
и написан языком, не допускающим
ошибочного понимания у читателя.
(Существенно.)
Комментарий.
Такая информация часто дается в виде
краткой памятки. При подготовке такого
краткого сообщения может учитываться
психологическая подготовленность
читателя, но это не позволяет
пропускать или искажать существенную
информацию. Если можно надеяться,
что читатель постоянно имеет дело с
такими сообщениями, необходимо приложить
усилия к повышению его способности
понимать детали.
А.2. Тест
и руководство к нему должны периодически
пересматриваться. Время пересмотра
зависит от изменения условий применения
или от исследовательских данных,
ввиду которых некоторые утверждения
в руководстве к тесту оказываются
неправильными или ведущими к ошибкам.
(Очень желательно.)
Комментарий.
Технические характеристики и
полезность теста изменяются с
изменением социальных условий и
установок, определенных видов труда,
условий и содержания обучения и
состава соответствующей популяции.
А.2.1.
Перепроверки теста, проведенные
после его публикации, вне зависимости
от благоприятности или неблагоприятности
для теста, должны быть учтены в
пересмотренных изданиях руководства
или в дополняющих сообщениях. В
руководство должны также включаться
данные не только авторов и публикаторов,
но и других исследователей. (Очень
желательно.)
А.2.2.
Когда тест пересмотрен или издана
его новая форма, руководство к нему
должно быть соответственно пересмотрено
с учетом изменений теста. Кроме того,
должны быть ясно указаны природа и
степень пересмотра, сравнимость
данных, полученных по старому и по
пересмотренному тестам. (Существенно.)
Комментарий.
Целесообразно, чтобы издатели указывали
на пересмотры руководств к тесту в
каталогах и принимали другие меры
для увеличения вероятности того,
что пользователь теста получит
текущую информацию.
А.2.2.1.
Когда на основе хорошо проверенного
теста разработана укороченная форма,
в руководстве должны быть представлены
данные о том, что задания в укороченной
форме адекватны заданиям в полной форме
или что укороченная форма измеряет
те же самые характеристики, что и полная
форма. (Очень
желательно.)
Комментарий.
Если короткая форма теста не была
разработана, но есть основание полагать,
что обычно тест используется в
укороченной форме, в руководстве
должно быть напоминание для читателя,
что данные, отраженные в руководстве,
не могут быть приложим к результатам
использования укороченной формы.
А.2.2.2.
Если укороченная форма разработана
путем сокращения числа заданий или
преобразованием части теста в отдельную
форму, то укороченный тест должен
пройти психометрическую проверку и ее
данные должны быть приведены в
руководстве. (Существенно.)
Комментарий.
В руководстве к тесту, имеющему две
альтернативные формы, необходимо
представить независимые данные для
каждой формы.
А.2.3.
При переводе теста с другого языка и
их адаптации в руководстве еле дует
указать все внесенные в тест изменения
и данные новой психометрической
проверки. (Существенно.)
А.3.
Наименования для публикуемых тестов
и для отдельных частей тестов должны
выбираться так, чтобы обеспечить
минимальный риск ошибок интерпретации
пользователями. (Существенно.)
Комментарий.
Желательно, чтобы наименования не
содержали многозначных терминов в
качестве измерительных характеристик.
Такие наименования как «свободный от
влияния культуры» «интеллект»,
«креативность», «интроверсия», «первичные
умственные способности», «показатель
продуктивности», сомнительны для
опубликованных тестов, не содержащих
необходимых свидетельств их продуктивной
валидности, так как могут предполагать
интерпретации, не вытекающие из
демонстрируемого смысла тестовых
оценок.
А.3.1.
Средства идентификации интересов
и свойств личности путем самоотчета
следует называть не «тесты», а
«опросники», «вопросники», «оценочные
листы», «оценочные шкалы». (Очень
желательно.)
Комментарий.
Когда о таких инструментах говорится
в руководстве, слово «тест» может
использоваться для упрощения языка
даже в том случае, если оно отсутствует
в наименовании.
А.4. Если
тест предназначен только для
исследовательского пользования и не
может быть распространен для широкого
применения, это должно быть ясно
выражено в сопровождающих материалах.
(Существенно.)
Комментарий.
Если психолог, разрабатывающий новый
диагностический тест, например, для
изучения личности, передает свой
инструмент для исследований другим
научным работникам до того, как сочтет
тест готовым для операционного
пользования, на обложке руководства,
а также в каталоге, где он зарегистрирован,
следует печатать «Распространение
только для исследовательского
пользования». Это служит предупреждением
против поспешного использования
инструмента.
А.5. В
руководстве должна быть указана
квалификация пользователя. (Существенно.)
Комментарий.
Обычно на обложке руководства
ставится обозначение, соответствующее
уровню квалификации пользователя: (А)
— тестом может пользоваться любой
человек; (Б) — пользователь должен
пройти полный курс обучения психодиагностике
и иметь законченное высшее гуманитарное
образование; (В) — пользователь
должен иметь опыт в тестировании,
подтвержденный соответствующими
документами, и иметь как минимум
законченное высшее психологическое
образование или быть членом психологической
ассоциации. При покупке тестов группы
(В) обязательно предоставление
квалификационного документа.
Б. Сведения о процедуре разработки
теста.
Ответственность за заключение
о смысле и ограничениях в использовании
тестовых результатов ложится в первую
очередь на пользователя. Однако в этом
случае он частично зависит от доступной
информации о тесте, приводимой его
составителем.
Руководство к тесту не
может полностью подготовить
пользователя к интерпретации данного
теста. Ему приходится делать выводы,
не подтвержденные опубликованными
свидетельствами. Так, профориентатор
не может надеяться на наличие данных
о валидности теста для каждого вида
труда, относительно которых он на основе
тестовых оценок делает наиболее
надежные предсказания. Специалист по
профконсультации или трудоустройству
может иметь дело с испытуемыми, которые
не могут быть отнесены ни к одной из
групп, для которых имеются нормативные
или валидационные данные. Учитель может
оценивать содержание теста достижений
соответственно принятым целям и
особенностям обучения, клиницист
должен соотнести общие данные теории
с собственной интерпретацией данных
по опроснику личности. Степень, с
которой руководство подготовит
пользователя к точной интерпретации
и эффективному использованию теста,
зависит от типа теста и способов его
применения. На составителя теста
возлагается ответственность за
представление информации, необходимой
для правильных суждений. Он должен
приложить все возможные усилия, чтобы
тест не был неправильно употреблен или
неправильно интерпретирован.
Б.1. В
руководстве к тесту должна быть полностью
описана процедура создания теста:
его концептуальная основа, детали
разработки заданий теста и их отбора,
психометрическая проверка надежности
и валидности и другие исследования.
(Существенно.)
Б.2. В
руководстве к тесту должны быть ясно
отражены теоретические положения,
на которых основан тест, и подробно
раскрыта природа характеристик, для
измерения которых тест предназначен.
(Существенно.)
Комментарий.
Ясное описание диагностируемых
переменных, а также характер измерения
позволяют пользователю судить,
насколько тест соответствует его
собственному пониманию, а также насколько
статистические данные характеризуют
его действенность.
Б.2.1.
Диагностический конструкт (концепт)
должен быть сформулирован в теоретических
понятиях и соотнесен на теоретическом
уровне с системой релевантных
конструктов (теоретическое определение).
(Существенно.)
Б.2.2.
Особое внимание должно быть обращено
на операциональное определение
диагностического конструкта.
Операциональное определение — это
определение конструкта в эмпирических
категориях, отражающих ситуацию, в
которых он актуализируется, а также
реакции (поведение, переживания,
представления), в которых данный
конструкт проявляется. (Существенно.)
Комментарий.
Пользователь теста нуждается в
информации, которая позволила бы
ему сравнивать собственную концепцию
конструкта с концепцией автора
теста.
Б.3.
Руководство теста должно указать
диагностические цели и сферы приложения,
для которых тест рекомендован.
(Существенно.)
Комментарий. Ясное указание
целей теста содействует предупреждению
ошибочного истолкования тестовых
оценок. Надо обратить внимание
пользователя на содержание в
руководстве доказательства
предложений, принятых автором.
Например, если тест достижений
рекомендован как тест обследования
знаний учащихся, важно точное описание
его содержания. Если, с другой стороны,
он рекомендован как диагностический
тест или тест для выбора вида деятельности,
требуются данные об его связи с одним
или несколькими критериями.
Б.3.1.
Должна быть четко выделена область
применения, под которой подразумевается
особая социальная среда или сфера
общественной практики (производство,
медицина, семейная жизнь и т. п.),
контингент испытуемых (пол, возраст,
образование, профессиональный опыт,
на производстве, в обществе). (Существенно.)
Б.3.2. В
руководстве должны быть конкретизированы
цели использования результатов: для
прогноза успешности профессиональной
деятельности, психологического
вмешательства, принятия правовых,
судебно-административных решений,
прогноза стабильности коллектива
и т. п. (Очень желательно.)
Б.4.
Руководство к тесту должно отразить
репрезентативность выборки заданий,
процедуру их отбора и психометрические
характеристики заданий. (Существенно.)
Комментарий.
Для тестов, представляющих собой
гомогенную, дискриминативную шкалу
или набор таких шкал, процедура отбора
заданий проводится следующим образом:
каждое задание проходит проверку
на трудность и дискриминативность, на
соответствие заданий нормальному
распределению и их степень отношения
к одному фактору. Выборка для анализа
должна отражать популяцию и в общем
случае для проверки одной формы теста
состоять как минимум из 100 человек.
Б.4.1.
Данные, собранные в ходе разработки
теста (до получения конечной формы),
должны быть отделены от данных,
относящихся к тесту в его конечной
форме. (Существенно.)
Б.5. В
случае если тест не разрабатывается
вновь, а переводится с другого языка,
он должен пройти полную психометрическую
проверку, так же как вновь разрабатываемый
тест. (Существенно.)
Б.5.1.
При переводе руководства к тесту
проверяется эквивалентность
диагностических конструктов и концептов,
лежащих в основе тестовых задач.
(Существенно.)
Стандартные требования
к надежности и валидности. Составитель
теста должен привести в руководстве
сведения о надежности и валидности
теста. Многие пользователи тестов также
выполняют подобные исследования,
опираясь на собственное применение
тестов. Их научные сообщения часто
отличаются от приведенных в руководстве
к тесту как более детальные и более
специфические, описывающие более
узкие сферы использования теста.
Несмотря на эти различия, в обоих случаях
стандартные требования для исследований
и сообщений по ним должны быть в общем
сходными.
В. Надежность и ошибка измерения.
Надежность — характеристика
методики, отражающая точность
психодиагностических измерений, а
также устойчивость результатов
теста к действию посторонних случайных
факторов.
В основе анализа надежности
теста лежит представление об истинных
оценках и ошибках измерения. Распределение
оценок, полученных на генеральной
совокупности при выполнении теста,
измеряющего одну характеристику,
теоретически должно подчиняться
нормальному закону. Поэтому при
разработке теста исследователю
необходимо отбирать задания таким
образом, чтобы распределение реальных
тестовых оценок было по возможности
близко к нормальному.
Для определения ошибки
измерения используются на практике
корреляционные методы, позволяющие
определить надежность через устойчивость
и согласованность результатов.
Классические методы оценки коэффициентов
надежности требуют корреляции по
меньшей мере двух совокупностей сходных
измерений.
Один из методов получения
двух совокупностей измерений — это
ретестирование (повторное обследование
одной и той же выборки испытуемых).
Несмотря на простоту и возможность
определения устойчивости результатов
теста в течение времени, дефект метода
в том, что субъект помнит свои ответы,
и в случае тестов способностей это
может существенно влиять на повторные
ответы.
Если мы желаем исключить
влияние запоминания на результаты
ответов как систематический источник
ошибки и учесть влияние временного
интервала на ответы, то можем использовать
две совокупности заданий, разработанных
или отобранных по одной системе. Это
— параллельные тесты. Недостатком
в данном случае является то, что
очень трудно построить на практике
параллельные формы одного и того же
теста.
Если желательно изучить
только влияние содержания выборки
без влияния запоминания или вариативности
ответов во времени или если практически
нецелесообразно проводить две
параллельные формы в разное время,
надежность может быть оценена проведением
одного теста без ограничения во времени.
В данном случае тест может быть разделен
на две равные части. Полученные показатели
по двум частям теста коррелируются
обычным методом. Но эта корреляция
отражает лишь надежность половины
теста. Для вычисления надежности всего
теста по методу расщепления используют
формулу Спирмена-Брауна.
Оценка надежности на основе однократного
тестирования может быть получена
путем использования формулы, известной
как коэффициент альфа.
Рекомендуется также оценить
надежность теста относительно
экспериментатора как оценщика и как
экспериментатора.
Из предыдущего видно, что
различные методы оценивания надежности
исходят из различных источников ошибок.
Так, на результаты ретестирования
влияет не только случайная вариативность
ответов или изменение субъектов во
времени, но также различия в поведении
(особенно если ретестирует другое
лицо). Коэффициенты надежности,
основанные на однократном тестировании,
исключают вариативность ответов во
времени, т. е. влияние ответов на баллы
не проявляется как ошибка измерения.
Следовательно, «коэффициент
надежности» — обобщенный термин.
Он может основываться на разных типах
свидетельств — каждый тип предполагает
иной смысл. Очень важно, чтобы метод,
использованный для получения коэффициента
надежности, был четко описан.
Автору теста рекомендуется
в руководстве описать значение
любого коэффициента насколько
возможно точно. Например, высказывание:
«Этот коэффициент показывает стабильность
измерения эквивалентных баллов,
основанных на параллельных формах
тестов, проведенных с промежутком в 7
дней, при этом научение испытуемых
исключается» хотя и длинное, но
свободно от двусмысленности.
Коэффициенты надежности
имеют ограниченную практическую
ценность для пользователей теста.
Стандартная ошибка измерения обычно
более полезна, т. к. обладает относительной
независимостью и может быть использована
для установления пределов определенной
вероятности балла. Пользователи
теста могут употребить коэффициент
надежности для сравнения тестов, но
для интерпретации тестовых баллов
используется стандартная ошибка
измерения.
В.1. В
руководстве к тесту должны быть
достаточно подробно описаны процедуры
и выборки, использованные для определения
коэффициентов надежности, сами
коэффициенты и ошибки измерения, что
позволит пользователю судить о том, в
какой степени эти параметры приложимы
к лицам или группам, с которыми он имеет
дело. Если некоторые из необходимых
данных не были получены, то отсутствие
такой информации должно быть отмечено.
(Существенно.)
Комментарий.
Для пользователя важно получить
несколько типов оценки надежности.
Полезным является сообщение
стандартных ошибок измерения, полученных
в разных группах. Следует привести
среднее значение и дисперсию выборки
и информацию о ее составе. Надежность
теста, предназначенного для отбора
работников, проверяется при тестировании
кандидатов на должность, а не школьников
или уже работающих. Если указывается,
что тест пригоден для различных
возрастных групп, следует привести
данные о надежности для каждого класса
или возраста. Авторы и публикаторы
тестов должны избегать необщепринятых
статистических процедур, если применимы
традиционные. Если представлен
необщепринятый статистический анализ,
он должен быть объяснен так, чтобы
свести к минимуму вероятность
ошибочной интерпретации.
В.1.1. В
руководстве к тесту следует представить,
насколько это возможно, количественный
анализ всех факторов, снижающих
надежность измерения: несогласованность
ответов субъекта; несогласованность
или неоднородность внутри выборки
содержания теста (стимульные задания,
вопросы, ситуации и др.); несогласованность
в проведении теста; несогласованность
между оценщиками, экспертами или
единицами математического аппарата;
механические ошибки при выставлении
баллов. (Желательно.)
Комментарий.
Подобный анализ может быть неосуществим,
если результаты теста выражены не в
количественной форме, а в категориальной
или непараметрической.
Для группы тестов школьных
достижений основными источниками
ошибок, подлежащих оценке, являются:
а) несогласованность в содержании
теста; б) несогласованность в
проведении теста; в) нестабильность
ответов испытуемых. Сбор данных
производится для оценки этих трех
факторов. Колебания или несогласованность
ответов субъекта сами по себе могут
быть важной переменной. Они часто
бывают главными источниками подлежащей
оцениванию случайной ошибки. Также
должна быть оценена несогласованность
между оценщиками.
В.1.2.
Стандартные ошибки измерений и
коэффициенты надежности должны
приводиться как для итогового балла,
так и для его частей, комбинаций баллов
(сумм, разниц, производных показателей),
если они рекомендованы в руководстве
к тесту (явно или неявно) для практического
использования, за исключением опытных
и экспериментальных. (Существенно.)
В.1.3. В
руководстве должно быть указано
минимальное различие между двумя
баллами, обычно требуемое для
статистической значимости на
определенном уровне. (Очень
желательно.)
В.1.4. В
руководстве должны быть описаны все
характеристики выборки, которые
могут оказывать влияние на надежность
оценивания. (Существенно.)
Комментарий.
В руководстве следует отразить такую
демографическую информацию, как
распределение субъектов по возрасту,
полу, экономическому и интеллектуальному
уровню, трудовому статусу или прошлой
трудовой деятельности, месту
жительства. Для стандартизированных
тестов при вычислении коэффициентов
надежности выборку следует формировать
случайным образом из генеральной
совокупности.
В.1.5.
Если тест рекомендован или обычно
используется в однородных подгруппах,
для каждой из них независимо должна
быть исследована надежность и ошибка
измерений, и это должно быть сообщено
в руководстве к тесту. (Существенно.)
В.1.6. В
руководстве к тесту должна быть сообщена
стандартная ошибка измерения для
разных уровней баллов. (Желательно.)
Комментарий.
В руководстве к одному тесту способностей
сообщаются стандартные ошибки для трех
уровней баллов: на уровне среднего
балла, на уровне одного стандартного
отклонения выше среднего и на уровне
одного стандартного отклонения ниже
среднего. Так как наиболее существенные
вариации ошибок измерения связаны
с крайними баллами, лучше опираться,
если позволяет количество доступных
случаев, на более широкий диапазон
уровней баллов.
В.1.7.
Неизвестные статистические характеристики
данных должны быть описаны со ссылками
на литературные источники, отражающие
разработку. (Существенно.)
Внутренняя согласованность.
В.2. В
руководстве должны быть представлены
данные о внутренней согласованности
(гомогенности, консистентности тест).
(Очень желательно.)
Комментарий.
Внутренняя согласованность важна,
если задания рассматриваются как
выборка из относительно однородного
общего множества (например, тест сложения
целых чисел, словарный тест для средней
школы, тест, предположительно измеряющий
интроверсию и т. п.). Меры внутренней
согласованности не заменяют иных
мер.
В.2.1.
Оценки внутренней согласованности
определяются соответствующими методами
расщепления пополам, при помощи
коэффициента альфа или других процедур,
которые должны быть адекватны
анализируемым данным. Любая другая
мера внутренней согласованности,
которую автор дополнительно сообщает,
в руководстве к тесту должна быть
подробно объяснена. (Очень
желательно.)
Комментарий.
Коэффициенты парного расщепления
отражают суждения экспертов и обнаруживают
тенденцию быть выше, чем коэффициенты
случайного расщепления. Дисперсионный
анализ обычно дает более низкие оценки
по сравнению с приемами парного
расщепления. Могут быть полезными
специальные коэффициенты: они должны
быть описаны так, чтобы читатель мог
понять их соотношение с общепризнанными
оценками.
В.2.2.
Оценки внутренней согласованности не
следует вычислять для скоростных
тестов. (Существенно.)
В.2.3. Если
тест состоит из отдельно оцениваемых
частей или разделов, в руководстве к
тесту следует сообщить корреляцию
между частями или разделами вместе с
соответствующими оценками надежности,
а также с соответствующими средними и
стандартными отклонениями. (Очень
желательно.)
В.2.3.1.
Если в руководстве сообщается
корреляция между баллом по отдельному
субтесту и общим тестовым баллом,
необходимо подчеркнуть, что коэффициент
неоправданно высок, так как он основан
на совпадении ошибок измерения субтестом
и общим тестовым баллом. (Существенно.)
В.2.4.
Если несколько вопросов внутри теста
экспериментально связаны так, что ответ
на один вопрос влияет на другой вопрос,
предпочтительно относить целую группу
вопросов к одной из двух половин теста,
когда применяются методы случайного
или парного распределения пополам. Тот
факт, что число заданий в этих половинах
не равно, не вызывает затруднений при
соответствующей процедуре анализа.
(Очень желательно.)
Ретестирование.
В.3. В
руководстве к тесту должны быть
представлены результаты ретестиро-вания,
т. е. пользователь должен знать, насколько
оценки стабильны. (Существенно.)
Комментарий.
Ретестовая надежность показывает,
в какой степени результаты теста
можно распространить на различные
случаи его применения. Приводя в
руководстве ретестовую надежность,
всегда необходимо указывать, в каком
интервале времени она измерялась и
какие влияния на испытуемых имели место
в этот период. На практике ретестовая
надежность в ряде случаев бывает
важнее, чем надежность по однородности.
Если нет ретестовой надежности, тест
не может быть валидным. Исключение
составляют тесты, для которых
ретестирование не применяется (тесты
оценки состояний, эмоций).
Считается обоснованным
требовать оценивания стабильности для
проективных техник и других средств
оценки личности, даже если в некоторых
случаях известно, что низкая стабильность
ретестирования за существенный период
отражает только истинное изменение
свойства. Клиническая практика редко
допускает, что выводы из проективных
тестов приложимы к дню исследования.
Реально считается, что на основе
тестовых данных принимаются прагматические
решения, имеющие смысл в течение как
минимум нескольких дней, а обычно —
недель или месяцев терапии. Если
обнаруживается, что результаты некоторого
теста очень нестабильны при интервале
в несколько дней, это свидетельство
вызывает сомнения в пригодности теста
для большинства целей, даже если эта
изменчивость может быть объяснена
гипотезой об изменчивости свойства.
Исследователь может столкнуться с
психологической характеристикой
или результатом обучения, который за
короткое время изменяется. В этом случае
важно не смешивать неустойчивость
свойства с нестабильностью измерения.
В.3.1.
При определении стабильности баллов
повторным тестированием целесообразно
использовать параллельные формы теста,
чтобы свести к минимуму припоминание
отдельных ответов, особенно при небольшом
интервале между тестированиями. (Очень
желательно.)
В.3.2.
При описании исследования согласованности
баллов во времени в руководстве к тесту
необходимо указать, какой промежуток
времени прошел между тестированиями,
и привести средние стандартные отклонения
баллов для каждого тестирования, а
также коэффициент корреляции.
(Существенно.)
В.3.3. Если
есть основание ожидать, что тестовые
баллы за некоторый период существенно
изменяются в соответствии с образовательными
или развивающими воздействиями, в
руководстве следует предупредить
пользователей об этой возможности.
(Очень желательно.)
В.3.4.
При сообщении о стабильности тестовых
баллов в руководстве к тесту необходимо
описать накопление соответствующего
опыта, обучение или лечение испытуемого
за период между тестированиями.
(Существенно.)
Сравнимость форм.
В.4. Если
опубликованы две формы теста,
предназначенные для возможного
применения к тем же испытуемым, в
руководстве к тесту должны быть
сообщены средние и дисперсии двух форм
вместе с коэффициентами корреляции
двух совокупностей баллов. Если в
руководстве не представлены необходимые
данные, пользователь должен быть об
этом предупрежден. (Существенно.)
Комментарий.
Для каждой формы следует представить
обзор таких характеристик заданий,
как частотные распределения
показателей трудности и дискриминативности
заданий. Следует представить также
содержательный анализ каждой формы.
Следовательно, необходимо отразить
как частотные распределения статистических
характеристик заданий, так и таблицы
заданий по группам их содержания,
характеристик поведения и учебных
целей.
Формы должны включать
различные выборки заданий из каждой
категории содержания. Искусственно
близкое сходство между формами может
быть вызвано совпадением заданий
или разработкой второй формы простой
перефразировкой заданий первой формы.
Коэффициент надежности будет
чрезмерно высоким, т. к. не учитывается
ошибка выборки из общего множества
заданий.
Г. Валидность (обоснованность) теста.
Вопросы валидности — это
вопросы о том, какие и насколько
обоснованные выводы могут быть сделаны
на основе тестовых оценок. Вопросы,
относящиеся к валидности, могут быть
сведены к двум: 1) какие выводы можно
сделать о том, что измерялось тестом;
2) какие выводы могут быть сделаны о
реальном поведении человека,
отличающемся от наблюдаемого при
тестировании.
1-й вопрос выясняет внутреннюю
природу самого измерения. Тест, как
измерительный инструмент, является
операционализацией психического
свойства или специфической области
умения или знания. В этом плане
существенной проблемой является
получение заключений о полноте отражения
тестовыми баллами этой области, и в
этом смысле следует говорить о
внутренней (конструктной) валидности.
2-м вопросом выясняется
полезность тестового измерения в
качестве предсказателя поведения.
В этом плане существенной проблемой
является получение заключения о том,
насколько тестовые баллы связаны с
некоторой другой деятельностью, и
в этом смысле следует говорить о
внешней (критериальной) валидности.
Важно отметить, что валидность
не измеряется, о ней только судят. В
руководстве могут быть приведены
коэффициенты валидности, но о
валидности теста для конкретного его
использования судят по набору
коэффициентов. Следовательно, валидность
есть нечто такое, о чем судят как об
удовлетворительном или неудовлетворительном
для вынесения соответствующего
суждения.
Виды валидности зависят
от видов заключений, которые желательно
извлечь из тестовых оценок. Традиционно
описывают три взаимозависимых типа
интерпретации заключений, обобщающих
подавляющее большинство возможностей
применения тестов: валидность по
критерию, содержательная и конструктная.
Валидность по критерию может быть
предсказательной и конкурентной.
Эти аспекты могут
рассматриваться независимо друг от
друга, однако независимость эта
условна. Они связаны операционально и
логически, в конкретной ситуации
редко бывает, чтобы лишь один из них
был важен. Полное исследование теста
часто включает информацию обо всех
видах валидности.
Валидность по критерию
и ее виды. Данная
форма валидности используется, когда
хотят сделать вывод о связи тестовой
оценки индивида с независимыми от
теста внешними параметрами, называемыми
критерием. Предсказательная валидность
отражает степень, с которой будущий
уровень по критерию может быть предсказан
предшествующей деятельностью по
тесту. Конкурентная валидность отражает
степень, с которой тест может быть
использован для оценки у индивида
актуального уровня по критерию. Это
различие важно. Предсказательная
валидность включает отрезок времени,
в течение которого может нечто
случиться (например, люди обучаются,
приобретают опыт, подвергаются лечению).
Конкурентная валидность отражает
только статус индивида в фиксированное
время. При соответствующих условиях
данные о конкурентной валидности
могут быть использованы для оценки
предсказательной валидности теста.
Однако конкурентная валидность не
может использоваться взамен
предсказательной без соответствующего
логического обоснования. Для многих
применений тестов (решение по отбору,
назначению лечения и др.) предсказательная
валидность дает возможность определить
целесообразность использования теста
или батареи тестов в каждом отдельном
случае. Другие формы валидности не
заменяют валидность по критерию. В
руководствах к тестам, разработанным
в предсказательных целях, а также
предназначенным для диагноза, должны
быть отражены исследования валидности
по критерию. В противоположном случае
такие тесты могут рассматриваться
только как исследовательские версии.
О сомнительности отдельного
вычислительного коэффициента
валидности говорят многие факторы.
Условия исследования валидности
никогда точно не повторяются. Быстрое
изменение условий может ограничить
точность и полезность предсказательного
исследования. Логика предсказательной
валидизации предполагает, что
условия, существующие в начале
испытаний, будут существовать и после
завершения исследования.
Логика валидности по
критерию предполагает валидность
самого критерия. Очень часто тесты
валидизируются относительно
доступного критерия вне соответствующего
исследования самого критерия.
Ценность исследования валидности по
критерию зависит от пригодности и
качества измерения по данному
критерию. В прикладных исследованиях
критерий должен выбираться в
соответствии с изучаемой проблемой,
а тест или другое средство оценивания
должны выбираться относительно
данного критерия. Если исследование
предназначено в первую очередь для
улучшения представлений о том, что
измеряется тестом, критерии должны
избираться на основе заключений о
природе конструкта, отражаемого
тестовыми оценками. В любом случае
адекватность исследования зависит
от адекватности критерия.
Логика валидности по
критерию предполагает, что выборка
полностью репрезентативна для
популяции, для которой позднее будут
делаться заключения. На практике выборки
часто не являются репрезентативными,
например, из-за ограниченного объема,
предвзятого отбора или утомления
испытуемых до завершения валидизационного
исследования.
Во многих практических
ситуациях валидизационные исследования
не могут охватить адекватного числа
случаев, и исследователи вынуждены
публиковать лучшее из того, что они
могут при имеющихся данных. Видимо,
лучше попытаться исследовать
валидность по критерию хотя бы каким-то
образом, чем принять совершенно
непроверенную гипотезу — результаты
неадекватного исследования могут
ввести в заблуждение. Особенно
сомнительны результаты валидизационных
исследований при резко ограниченном
ранге или малом количестве испытуемых.
Содержательная валидность.
Свидетельства о
ней требуются, когда пользователь
теста желает оценить, как индивид будет
действовать в ситуации, которую по
предположению будет представлять тест.
Содержательной валидностью обычно
характеризуются тесты умений и
знаний, опросники личности,
поведенческие опросники или средства
измерений различных способностей.
Данное обсуждение относится к
наиболее типичному случаю — тестам
достижения.
Чтобы выразить содержательную
валидность совокупности тестовых
баллов, необходимо показать, что
поведение испытуемых при тестировании
является репрезентативной выборкой
многих видов поведения в желаемой
области деятельности. Любое исследование
содержательной валидности требует,
чтобы составитель или пользователь
теста определил свои цели и исчерпывающе
определил область деятельности в
свете этих целей. Определение обычно
относится к результатам учения, а
не к процессу, в ходе которого достигается
или обнаруживается научение. Оно должно
быть достаточно детальным и четким,
чтобы отразить степень, с которой
компоненты деятельности образуют
целостную область.
Конструктная валидность.
Психологический
конструкт является теоретической
идеей, разработанной для объяснения
и организации некоторых аспектов
существующего знания. Такие термины,
как «тревожность», «способность к
канцелярскому труду» или
«подготовленность по чтению», отражают
конструкт, но конструкт может
обозначать больше, чем его название.
Иногда необходимо постулировать
несколько различных конструктов, чтобы
объяснить дисперсию данной совокупности
тестовых баллов. Более того, могут
потребоваться различные конструкты
для объяснения дисперсии различных
тестов того же типа, или отдельный тест
может отразить данные о нескольких
конструктах. Конструктная валидность
имеет место при оценивании теста
или другой совокупности операций в
свете рассматриваемого конструкта.
Суждения по конструктной валидности
полезны, когда составитель или
пользователь теста желает знать об
измеренном психологическом свойстве
больше, чем позволяет отдельный
коэффициент валидности по критерию,
и особенно когда необходимо
усовершенствовать измерение для
научного изучения конструкта.
Свидетельства о конструктной
валидности нельзя получить в одном
отдельном исследовании — суждения о
ней основаны на совокупности
исследовательских результатов. Вначале
исследователь формулирует гипотезы
о различии между лицами с высокими
и низкими результатами по тесту. Такие
гипотезы в совокупности образуют
предварительную теорию конструкта.
При полном изучении тест выступает
в качестве зависимой переменной в одних
исследованиях и в качестве независимой
— в других. Некоторые гипотезы могут
быть «контргипотезами» конкурирующих
теорий или интерпретаций.
Гипотезы и теоретические
формулировки ведут к некоторым
предсказаниям о том, как люди с различными
баллами по тесту будут выполнять тест
или проявлять себя в некоторых
определенных ситуациях. Если теория
исследователя верна, большинство
предсказаний должно подтвердиться.
Если этого не случится, исследователь
может пересмотреть определение
конструкта или перестроить тест так,
чтобы он стал лучшей мерой подразумеваемого
конструкта. Путем последовательной
верификации, модификации или отклонения
гипотез исследователь все глубже
проникает в сущность измеряемого
тестом свойства.
Доказательства конструктной
валидности можно получить в ходе
разработки самого теста. Хотя
доказательства конструктной
валидности могут быть получены на
основе серии исследований по внешним
критериям, важно отметить, что они
неадекватны доказательствам
пригодности конструкта для других
гипотез.
Составитель теста или любое
лицо, исследующее валидность, должны
представить по мере возможности
максимум информации о валидности, чтобы
пользователь мог оценить тест по
отношению к собственным целям. В
руководстве к тесту необходимо
отразить данные, позволяющие
пользователю оценить пригодность
содержания заданий, установить, является
ли тест приемлемой мерой рассматриваемого
конструкта, и решить, характеризуется
ли тест предсказательной валидностью
в других подобных ситуациях.
Г.1. В
руководстве должна быть указана
валидность теста для всех видов
заключений, для которых он рекомендуется.
Если его валидность для некоторой
предполагаемой интерпретации не
была изучена, этот факт должен быть
указан. (Существенно.)
Комментарий.
Исследование валидности является
частью разработки теста; пользователь
нуждается в том, чтобы составитель
сообщил об этом подробно в руководстве
к тесту. По меньшей мере, в руководстве
должны быть отражены исследования
самого составителя или других
исследователей, опубликованные в других
изданиях. Предпочтительно, чтобы в
руководстве были отражены отдельные
исследования и представлены обобщенные
данные о валидности для различных видов
интерпретаций или выводов.
Г.1.1.
Данные о валидности должны быть сделаны
на основании всех типов тестовой
валидности. (Существенно.)
Комментарий.
Неправильно использовать выражение
«валидность теста», не указывая вид
валидности. Не существует тестов,
валидных для всех целей или во всех
ситуациях, а также для всех групп
индивидов. Любое исследование валидности
относится к некоторым из возможных
применений или видов теста, получаемых
на основе баллов.
Если тест может быть неправильно
использован в некоторых областях
применения, в руководстве должны
быть специальные предостережения.
Г.1.2.
Если предполагается интерпретация
не только баллов субтеста, но и различных
индексов, в руководстве должны быть
помещены свидетельства, подтверждающие
правомерность такой интерпретации.
(Существенно.)
Г.1.2.1.
Разработчик должен предупредить
пользователя о невозможности
рассматривать ответы на отдельные
задания теста в качестве основы для
составления заключений об испытуемом.
Если подобная оценка заложена в
структуре теста, то в руководстве должно
быть приведено подробное обоснование
такого применения.
Г.1.3.
Чтобы обеспечить правильную интерпретацию
баллов в течение длительного времени,
валидность предполагаемых интерпретаций
должна периодически перепроверяться
и результаты сообщаться в последующем
руководстве. (Очень
желательно.)
Комментарий.
Требования к труду, условиям работы
и людям, работающим по данной
профессии, с течением времени часто
существенно изменяются. Подобным
образом изменяется смысл клинических
категорий, типы медикаментозного
лечения, цели и содержание обучения.
Следовательно, пользователь должен
быть в состоянии судить о том, устарел
тест или нет.
Г.1.3.1.
При изменении факторов, которые
могли повлиять на результаты выполнения
или на валидность предполагаемой
интерпретации теста, в случае если для
изменившихся условий не произведена
ревалидизация, тест должен быть исключен
из общего употребления и распространяться
среди лиц, которые будут производить
изучение его валидности. (Очень
желательно.)
Г.1.4.
Корреляции баллов заданий с общим
тестовым баллом могут рассматриваться
только как показатели дискриминативности
заданий, не могут рассматриваться
или использоваться в качестве
коэффициентов их валидности.
(Существенно.)
Комментарий.
Коэффициенты дискриминативности
заданий полезны при суждении о
конструктной валидности, и эту информацию
следует включать в руководство к
тесту. Однако такие коэффициенты
являются не показателями валидности
теста, а только мерой внутренней
согласованности.
Г.2.
Выборка, использованная в исследовании
валидности, и условия, при которых
проводилось тестирование, должны быть
подробно описаны, чтобы пользователь
мог судить, распространима ли сообщенная
валидность на его ситуацию. (Существенно.)
Г.2.1. В
руководстве к тесту следует указать
все параметры, определяющие состав
валидационной выборки. Выборка должна
быть описана по тем переменным, о которых
известно, что они влияют на валидность:
возраст, пол, социоэкономический статус,
национальное происхождение, также
другие демографические и психологические
характеристики. (Существенно.)
Комментарий.
Если валидационные исследования
используют пациентов в качестве
испытуемых, то важно указать диагнозы.
Если возможно, то необходимо показать
обоснованность диагностики (строгость
условий диагностики). Для тестов,
используемых в индустрии, должен быть
описан трудовой статус, профессиональный
опыт, пол и национальный состав выборки.
Для школьных тестов уместной является
информация о характеристиках популяции
или принципах отбора.
Г.2.2.
Доказательства валидности тестов
должны быть получены для субъектов,
которые по возрасту, образованию или
профессиональной подготовленности
соответствуют лицам, для которых
тест рекомендуется. В руководстве
должны быть отражены отклонения от
этого требования. (Существенно.)
Комментарий.
Информация о валидности тестов,
предназначенных для профориентации,
должна в общем определяться на субъектах,
тестированных незадолго до
образовательного или профессионального
выбора или сразу после него.
Вопросник интересов,
стандартизированный на мужчинах,
работающих по исследуемой профессии,
не обеспечивает использование вопросника
в профориентации учащихся средней
школы, поскольку полученные шкалы
не дифференцируют группы учащихся.
Лучшее доказательство было получено
после проверки вопросника на учащихся
с определением характера из последующей
работы и установлением связи между
данными вопросника и последующей
профессией.
Если вопросник интересов
использует критерий приобретения или
неприобретения некоторой профессии,
в выборке, использованной для его
валидизации, должны быть только лица
со способностями, соответствующими
данной группе профессий.
Г.2.3.
При описании выборки должны быть
приведены основные статистические
данные, включая число наблюдений (и
обоснование наблюдений), меры центральной
тенденции вариативности. Следует
также отразить особенности распределения,
возможно, с мерами асимметрии и эксцесса.
(Очень желательно.)
Комментарий.
Чем меньше объем валидационной выборки,
тем менее надежны статистические
данные. Когда число наблюдений очень
мало, нулевой коэффициент корреляции
может привести к ошибочному отклонению
валидного теста.
Г.2.4. Если
тестовые баллы в валидационной
выборке имеют распределение, существенно
отличающееся от распределения баллов
в группе, для которой он будет обычно
использоваться, то данные, основанные
на этих баллах, включая оценки
параметров популяции, следует
интерпретировать с большой
осторожностью. При сообщении оценок
параметра необходимо привести
исходные статистические данные, а также
характеристики распределения,
использованные при введении новой
оценки, и использованные статистические
процедуры. (Существенно.)
Комментарий.
Пользователю руководства следует
предоставить возможность оценить
любое искажение, возникающее
вследствие нетипичности характера
выборки. Предположения, обусловливающие
причины такого искажения, часто
игнорируются, вследствие этого
невозможно определить степень и
направление ошибок. Несмотря на эти
трудности, часто необходима оценка
подходящей статистики. Например,
коэффициент валидности должен
отразить предсказательную способность
в группе, к которой тест будет применяться.
Г.2.5.
Если тест способностей предназначен
для учебного или профессионального
отбора, его валидность должна
устанавливаться на субъектах,
заинтересованных в хорошем выполнении
заданий. Если же они являются добровольцами
или пришли к выводу, что результаты
выполнения теста не будут использованы
в принятии решений о них, этот факт
должен быть ясно указан (экологическая
валидность). (Очень
желательно.)
Комментарий.
В промышленном отборе для валидности
широко используется метод «наличных
кандидатов на работу». Обычно он
включает тестирование реальных
кандидатов, которым указывается,
что выполнение теста не влияет на их
прием на работу. Мотивационные различия
могут повлиять на характер выборки,
так как вводят в ситуацию тестирования
новую переменную.
Г.2.6.
Если валидационная выборка образована
на случайно полученных или произвольно
присланных пользователями результатах
тестирования, этот факт должен быть
отражен в руководстве к тесту. Пользователь
должен быть предупрежден, что группа
не является систематической или
случайной выборкой из определенной
популяции. Должны быть также указаны
возможные отборочные факторы и их
предполагаемое влияние на переменные
места. (Существенно.)
Комментарий.
Хотя вполне целесообразно включать
в руководство такие фразы, как «автор
и издатель теста будут приветствовать
дополнительные данные, полученные при
его использовании», крайне трудно
адекватно судить о качестве и
представительности большинства
сообщений о результатах валидизации,
основанной на подобных данных.
Г.2.7.
Пользователю теста должна быть известна
возможность смещения оценок в тестах
или тестовых заданиях. По возможности
следует изучить вероятные различия
валидности по критерию для частных
выборок, различающихся по полу,
этническому составу или другим признакам,
которые могут быть выявлены при
тестировании. В руководстве следует
сообщить результаты для каждой частной
выборки в отдельности или о том, что
различия не обнаружены. (Существенно.)
Комментарий.
Во многих случаях опубликованные
правила требуют, когда это возможно,
проводить определение валидности для
выборок, отличающихся по национальности,
полу и другим демографическим
показателям.
Возможны и другие источники
различий оценок теста в разных
валидационных выборках. Например,
расположение теста по изучению ловкости
рук на низком столе может вызвать
смещение результатов у высоких людей.
Необходимы и другие
предосторожности при оценке
возможности смещения. Простые различия
групповых средних сами по себе не
указывают на контаминацию теста.
Доказательство дифференциации
смещённости тестовых оценок основывается
на сравнении коэффициентов корреляции,
уравнений регрессий, средних значений
и дисперсий каждой переменной.
Пригодными статистическими
критериями таких различий являются
для любого параметра проверки гипотез
об отсутствии различий между группами,
например отсутствие различий между
коэффициентами корреляций, показателями
наклона или пересечения. Другими
способами — тем, что один коэффициент
корреляции значимо отличается от
нуля, а другой не отличается, невозможно
доказать предполагаемые различия.
Необходимо учесть, что
существуют различные определения
чистоты и от принятого определения
может зависеть, является ли данная
процедура чистой. Более того, имеются
статистические и психологические
неопределенности относительно некоторых
источников наблюдаемых различий в
валидности или регрессии. До тех пор
пока различия не наблюдаются в достаточно
больших выборках и пока отсутствует
достаточное теоретическое (психологическое
или социологическое) объяснение
наблюдаемых различий, любое различие
принимается осторожно. Смещение
обнаруживается не обязательно для
валидности по критерию.
Г.3.
Пользователь теста ответственен за
изучение данных, подтверждающих его
валидность и надежность. Применение
тестовых баллов при принятии решений
должно опираться на достаточные
доказательства. (Существенно.)
Комментарий.
Пользователь теста ответственен за
понимание и оценивание возможности
применения теста в своем исследовании.
В случае, если условия стандартизации
и проверки на валидность и надежность
теста отличаются от тех условий, в
которых работает пользователь, на
пользователя ложится обязанность
провести дополнительные исследования
валидности теста для собственного
исследования. Свидетельства о
валидности необходимы для любого
обоснованного принятия решений, а
не только тогда, когда их легко получить.
Г.3.1.
Пользователи теста ответственны за
сбор данных о валидности и надежности
используемых методик. (Очень
желательно.)
Г.3.2.
Если пользователь желает применить
тест в ситуации, для которой такое
применение ранее не проверено на
валидность или для которой не
существует подтвержденных доказательств
валидности, он несет полную
ответственность за валидизацию.
(Существенно.)
Комментарий.
Тот, кто публикует данные о валидности,
должен обеспечить ее доказательства.
Зачастую данные о валидности, достаточные
для применения тестов, имеются в
руководстве к тесту. Если пользователь
желает заявить, что валидность является
более общей, чем это отражено в
руководстве, он несет ответственность
за доказательность своего утверждения.
Если пользователь теста
существенно изменяет инструкцию, язык,
на котором тест написан, или содержание,
он должен провести повторную валидизацию
применения теста в измененных
условиях.
Валидность по критерию.
Г.4. Все
меры валидизации по критерию должны
быть описаны полно и точно. Критерии
должны быть оценены с точки зрения
их адекватности, надежности и
загрязненности (контаминированности),
что следует убедительно подтвердить.
Необходимо обратить внимание на значимые
аспекты деятельности, которые
критериальные меры не отражают, и на
посторонние факторы, которые могут
оказывать влияние на эти меры.
(Существенно.)
Комментарий.
Критерии являются формами оценивания
и должны соответствовать тем же
требованиям, что и разработка любой
оценочной техники. При диагностике в
области труда и образования критерием
может быть тест достижений или
перечень трудовых действий, достаточно
валидных по содержанию. Оценочные
суждения руководителей и педагогов
являются критерием более общим, но
и более сомнительным по конструктной
валидности. Выводы о конструктной
валидности оценочных суждений могут
быть основаны на высокой их корреляции
с результатами деятельности и максимально
не зависеть от трудового стажа. При
изучении интересов иногда не выясняется,
что показывает критерий: удовлетворенность,
успешность или длительность изучаемой
деятельности. Когда группы по критерию
включают лиц данной профессии и
когда эти группы сравниваются с людьми
вообще, в руководстве должно быть
подчеркнуто различие между работой по
профессии и успехом или удовлетворенностью
ею.
Г.4.1.
Особое внимание должно быть обращено
на потенциальные источники контаминации
критерия; необходимо сообщить о
результатах исследования контаминации.
(Существенно.)
Комментарий.
Результаты таких исследований могут
быть неоднозначны, и пользователя надо
об этом предупредить. Например, при
изучении влияния половых различий на
оценку по критерию может обнаруживаться
существенная разница между мужчинами
и женщинами. Однако этот факт сам по
себе не является достаточным
свидетельством контаминации критерия:
он может отразить фактические половые
различия деятельности.
Г.4.2.
Когда сообщается валидность теста для
предсказаний в сфере профессиональной
деятельности, в руководстве должны
быть описаны служебные обязанности
работников наряду с наименованием
выполняемых ими действий. (Очень
желательно.)
Комментарий.
Принцип заключается в том, что должна
даваться информация, на основе
которой пользователь мог бы судить о
состоятельности критерия. При
отсутствии такой информации описание
критерия часто является неполным.
Г.4.3.
При валидизации по критерию обычно
следует рассматривать не один, более
общий критерий, а несколько частных,
составляющих общий.
Комментарий.
В большинстве видов деятельности по
выполнению теста деятельность выражается
во многих параметрах, которые могут
быть независимы. При объединении
несвязанных аспектов поведения в единый
сложный критерий возможно игнорирование
важных зависимостей и тем самым
уменьшение способностей пользователей
идентифицировать и понимать валидные
интерпретации теста.
Отдельные решения часто
должны быть приняты на многомерной
основе. Тем не менее предпочтительнее
найти правило принятия решений для
объединенных предсказаний.
Г.4.4.
Если валидность теста оценивается
по его соответствию психиатрическим
суждениям, следует указать квалификацию,
опыт и профессиональный статус экспертов,
также природу и степень их контактов
с пациентами и другие потенциально
влияющие факторы. (Очень
желательно.)
Комментарий.
Например, «параноидная шизофрения,
хроническая» лучше, чем просто
«шизофрения». Так как типы пациентов,
подвергаемых специально диагностической
классификации, в некоторой степени
зависят от выбора психиатра, должно
быть предоставлено развернутое
описание каждой диагностической
категории, использованной в исследовании
валидности.
Г.4.6.
Коэффициенты валидности специфичны
для ситуаций, в которых они получены.
Если в руководстве дано сообщение
о валидности для предсказания данного
вида конструкта (критерия), необходимо
представить материалы, предполагающие
границы этого обобщения относительно
характеристик популяции или выборки,
ситуационных переменных или вариации
изменения по критерию. (Очень
желательно.)
Г.4.7.
Так как критерий является выборочным
из всевозможных критериев того же
конструкта, валидность должна быть по
возможности определена как соответствие
этой выборки другим похожим выборкам.
Если доказательства по этому вопросу
представлены быть не могут, автор
на основе суждения по косвенным
данным должен это указать и обсудить
вероятную степень соответствия выборки
другим выборкам. (Очень
желательно.)
Комментарий. Если валидность
измерена, например, по соответствию
теста суждениям психиатров, то должна
быть описана степень согласованности
между экспертами. Если в качестве
критерия использован опубликованный
тест достижений, то его соответствие
параллельным формам или надежность,
сообщенные автором теста, могут быть
использованы как основа для оценивания
критерия при учете влияния различия
между взятой выборкой лиц и исходной
выборкой.
Г.4.8. В
руководстве должны быть отражены
данные о степени полноты и обобщенности
информации о валидности. (Очень
желательно.)
Г.4.8.1.
В руководстве к тесту должны быть
сообщены данные о валидности теста
относительно каждого критерия, для
которого даются рекомендации. Если для
некоторой интерпретации валидность
не выявлялась, этот факт должен быть
ясно указан. (Существенно.)
Комментарий.
Если с данным наименованием профессии
соотнесен широкий круг обязанностей,
пользователей теста следует предупредить
о несостоятельности предположения,
что только одно сочетание интересов и
способностей соотносимо с данной
профессией.
Г.4.9.
Локальный сбор доказательств валидности
по критерию часто более полезен, чем
опубликованные данные. В таких
случаях в руководстве должен делаться
упор на локальные исследования
валидности, а пользователи теста должны
по возможности проводить такие
исследования. (Желательно.)
Г.5. В
валидизационном исследовании при сборе
данных необходимо использовать
процедуры, соответствующие целям
исследования. (Существенно.)
Г.5.1.
При сборе данных для валидизации
исследователь, интерпретирующий
результаты теста, должен располагать
только той информацией об испытуемых,
которая обычно будет доступна при
практическом использовании тестов.
Если существует некоторая возможная
контаминация, связанная с априорным
представлением об испытуемых, в
руководстве должно быть обсуждено
влияние этого фактора на результаты
исследования. (Существенно.)
Г.6.
Любой статистический анализ валидности
по критерию в руководстве должен
даваться в форме, по которой пользователь
мог бы определить, с какой степенью
доверительности можно принять утверждения
или предсказания относительно
индивида. (Существенно.)
Г.6.1. В
докладе о валидности по критерию
должна быть отражена полная информация
о выполненном статистическом анализе.
Следует включить, кроме основных
описательных статистик (средних и
стандартных отклонений), еще один или
несколько показателей: а) один или более
коэффициент корреляции известного
вида; б) описание эффективности, с
которой тест различает группы по
критерию; в) таблицы ожиданий; г) графики
зависимости между тестом и критерием.
(Существенно.)
Комментарий.
Полная информация включает данные
о надежности, тесноте и характере
зависимости. В корреляционное понятие
включается информация о статистической
значимости и величине коэффициента
корреляции, а также о регрессионном
уравнении.
Сообщение о различии между
средними групп само по себе не дает
адекватной информации о валидности:
если дисперсия большая, классификация
может быть неточной, даже если средние
различаются существенно. Теснота связи
может быть представлена описанием
количества ошибочной классификации
или совмещений групп. Таблицы ожиданий
могут дать информацию о характере
предсказания.
В общем, так как руководство
часто предназначено для пользователей,
имеющих слабую статистическую подготовку,
должны быть приняты все меры для
ясного сообщения валидности.
Г.6.1.1.
Коэффициент валидности должен быть
дополнен сообщением о параметрах
уравнения регрессий и стандартной
ошибкой оценки. (Очень
желательно.)
Комментарий.
Необходимая информация может быть
представлена в таблице ожиданий,
показывающей величину возможных оценок
по критерию для каждого балла (или
группы баллов) по тестам. Очень полезна
стандартная ошибка оценки для
различных точек шкалы предсказаний.
Г.6.2.
Если валидность теста выявляется
сравнением групп, различающихся по
критерию, то в руководстве к тесту
необходимо сообщить, различаются
ли группы, и насколько различаются, по
другим переменным. (Очень
желательно.)
Комментарий.
Так как группы, различающиеся по
критерию, могут также резко различаться
и в других отношениях, то тест может
различать качества, отличающиеся
от подразумеваемых. Например, типы
умственного расстройства связаны с
возрастом, образованием и длительностью
госпитализации. Это всегда должно быть
учтено при оценке полезности теста
для диагностики.
Г.6.2.1.
Если тест предназначен для дифференциального
анализа, то в руководстве должны
быть приведены доказательства
способности теста отнести индивидов
в диагностические группы, а не только
отделять диагностируемые группы от
популяции нормальных. (Существенно.)
Комментарий.
Когда тест рекомендован для отнесения
индивидов в дискретные категории,
то φ-коэффициенты или дискриминативные
функции должны быть дополнены таблицами
оценок ошибочных решений. Например,
для каждой категории должен быть
определен процент лиц, ошибочно
исключаемых из нее. Такие проценты
должны сравниваться с базовыми оценками,
т. е. с процентами правильной классификации,
установленными при максимальном
знании объема диагностируемых категорий.
Г.6.3.
Метод статистического анализа должен
выбираться с учетом характеристик
полученных данных и выдвинутых гипотез.
(Существенно.)
Комментарий.
Полученные данные могут очень
незначительно отличаться от
первоначально предполагаемых
характеристик. Однако даже небольшие
отклонения от выдвинутых гипотез
могут приводить к серьезным ошибкам.
Например, при использовании
предсказаний, основанных на
предположении о двумерном нормальном
распределении, возможна серьезная
переоценка средней деятельности
кандидатов с высокими баллами, если
данные заметно несимметричны.
В подобных случаях валидность более
точно определяется методом, не основанным
на предположении о двумерном
распределении.
Г.6.4.
Если коэффициенты корреляции
скорректированы с учетом ограниченности
в ранге или ослабления, то должна быть
представлена полная информация о таких
поправках. При этом проверка значимости
должна быть проведена для коэффициентов
корреляции без поправок. (Существенно.)
Комментарий.
Поправки должны вноситься только к
вычисленным коэффициентам. Обычно
не следует делать последовательных
поправок, например поправки на
ослабление к коэффициенту, уже
скорректированному с учетом ограничения
в ранге. Цепочки поправок могут быть
полезны при рассмотрении возможностей
дальнейших исследований, но эти
результаты не должны представляться
как оценки корреляций в популяции.
Г.6.5.
Если валидизации подвергается батарея
тестов, в руководстве необходимо
отразить валидность суммарной оценки,
а также следует вычислить «вес» каждого
теста в итоговой оценке. (Существенно.)
Г.6.6.
Если весовое объединение тестов в
батареи основано на регрессионных
коэффициентах, отрицательные веса
следует использовать только после
проверки на перекрестную валидность
в больших выборках и только в том случае,
когда их использование не скажется
отрицательно (и, следовательно, не будет
несправедливым) на одной или нескольких
подгруппах тестируемой популяции.
(Существенно.)
Г.6.7.
Если предположено, что решение должно
быть основано на сложном нелинейном
объединении баллов, необходимо
показать, что такое объединение имеет
большую валидность, чем простое линейное
объединение, что уравнения могут быть
логически объяснены и процедуры
объединения баллов подвергались
перекрестной валидизации. (Существенно.)
Г.6.8. По
мере возможности пользователю теста,
продолжительное время работающему
с ним, следует разработать процедуры
отбора данных для дальнейшего
исследования. (Желательно.)
Комментарий.
Данные о валидности могут устареть,
на зависимость между выполнением теста
и реальной деятельностью могут
повлиять многие факторы: изменение
характеристик популяции, источники
ее пополнения, экономические и
организационные характеристики.
Более того, исследования валидности
часто основаны на относительном малом
количестве случаев. План систематического
сбора данных уже после передачи теста
в пользование может быть полезным как
для разработки более надежной
статистической основы, так и для
информации об изменениях тенденций
зависимости с течением времени.
Продолжение исследования менее
необходимо, если исходные данные
получены в относительно большой выборке,
если хорошо определена основа обобщающей
валидности. В этом случае возможно
планировать время от времени небольшие
повторные исследования вместо
продолжительной исследовательской
программы.
Г.7. В
руководстве должна быть указана
разница во времени между проведением
теста и сбором данных по критерию. Если
данные по критерию собирались в течение
некоторого времени, должны указываться
даты начала и окончания. (Существенно.)
Комментарий.
Валидность может со временем
уменьшаться. В профо-риентационном
тестировании изменения содержания и
средств труда, уровня способностей
популяции ориентируемых могут
изменять показатели, для которых
получена информация о валидности.
Г.7.1.
Пользователя теста следует предупредить
о необоснованности составления
долговременных прогнозов. (Существенно.)
Комментарий.
Кратковременные прогнозы намного более
валидны, так как менее подвержены
влиянию разных факторов.
Г.7.2.
Если тест предназначен для долговременных,
отстоящих во времени прогнозов, но
представлены сравнения только по
конкурентному критерию, в руководстве
должно быть подчеркнуто, что валидность
долговременных предсказаний осталась
неопределенной. (Существенно.)
Г.7.3.
Если сообщается валидность теста
для предсказания оценки по учебному
предмету, то должна быть достаточно
ясная информация о видах деятельности,
необходимой при изучении данных
предметов, характере метода обучения
и способе измерения деятельности. Если
тест был проведен после начала изучения
предмета, этот факт должен быть
отмечен. (Очень
желательно.)
Содержательная валидность.
Г.8. Если
деятельность по выполнению теста
интерпретируется как репрезентативная
выборка из видов деятельности в общем
множестве ситуаций, в руководстве
необходимо дать четкое определение
учитываемого общего множества и описать
критерии отбора выборки из него.
(Существенно.)
Комментарий.
В определение не должны включаться
предположения о детерминирующих
деятельность психических процессах,
т. к. это объект не содержательной,
а конструктной валидности.
Г.8.1.
Если вопрос о соответствии выборки
заданий их общему множеству или о
точности выставления оценок решали
эксперты, в руководстве должен быть
описан соответствующий профессиональный
опыт и квалификация экспертов, а также
инструкции, на основании которых
проводилась экспертная оценка.
(Очень желательно.)
Г.8.1.1.
Если задания отобраны экспертами,
то должна быть обобщена степень
согласованности между их суждениями.
(Желательно.)
Г.8.1.2.
Содержание теста должно быть проверено
относительно возможности смещения.
(Желательно.)
Комментарий.
Смещение может иметь место, если задания
не представляют сравнимых видов
деятельности и поэтому не являются
выборкой из области деятельности, общей
для различных подгрупп. Такое смещение
следует выявлять с помощью достаточно
полных суждений экспертов. Изучение
установок или интерпретаций заданий
в различных подгруппах также дает
полезную информацию. Суждения о
смещении могут быть сами смещены —
следует придерживаться принципа, что
по возможности суждения должны
подтверждаться статистическими
данными.
Г.8.2. В
руководствах к тестам достижений
учебных результатов должна быть сообщена
система классификации, использованная
для отбора заданий. (Желательно.)
Г.8.2.1.
Если тест достижений был разработан в
соответствии с двумерной схемой
«темы—процессы», в руководстве должна
быть представлена эта схема с
перечислением заданий, относимых к
каждой клетке схемы. (Очень
желательно.)
Г.8.3.
Для любого утверждения о связи
заданий с изучаемым предметом (или
другими источниками содержания) в
руководстве должна быть указана
дата, когда изучаемый предмет был
разработан. (Существенно.)
Г.8.4.
Если тест описан как валидный по
содержанию труда или видов трудовой
деятельности, в свидетельствах о
валидности должно быть полное
описание трудовых обязанностей,
относительная частота, важность, а
также уровень умений, требующихся
при их выполнении. (Существенно.)
Конструктная валидность.
Г.9. Если
автор интерпретирует тест как меру
диагностируемого конструкта (способности,
черты установки), то должна быть
полностью изложена предполагаемая
интерпретация. Этот конструкт должен
быть полностью ограничен от интерпретаций,
вытекающих из других теорий.
(Существенно.)
Комментарий.
Например, если тест предназначен для
измерения конструкта «тревожность»,
автор теста должен отразить отличия
самого определения данного конструкта
от некоторого другого возможного
значения термина, которое подразумевается,
и должен соотнести свою концепцию с
мерами тревожности, рассмотренными в
литературе.
Описание конструкта может
быть простым, например определение
«креативности» как «совершения
многих оригинальных действий». Все
подобные характеристики или гипотезы
являются частью авторской концепции.
Г.9.1. В
руководстве должна быть отражена
степень случайности предложенной
интерпретации и обобщены исследования
гипотез, вытекающих из данной теории.
(Существенно.)
Г.9.1.1.
Каждое исследование, содержащее
теоретические выводы о тесте, должно
быть отражено так, чтобы были раскрыты
и операциональные процедуры исследования,
и соотнесение результатов с теорией.
(Очень желательно.)
Г.9.1.2.
В руководстве должны быть сообщены
корреляции между тестом и другими
тестами, для которых интерпретация
относительно ясна. (Очень
желательно.)
Г.9.2. В
руководстве необходимо привести
доказательства степени, с которой
другие конструкты, отличающиеся от
предполагаемого автором, объясняют
дисперсию баллов теста. (Очень
желательно.)
Комментарий.
Хотя неразумно требовать от автора
теста предвосхищения или включения
в руководство каждой противоположной
интерпретации, он все же должен
представить достаточные данные о
противоположных гипотезах, наиболее
вероятно объясняющих дисперсию тестовых
баллов.
Г.9.2.1.
В руководстве к любому специализированному
тесту или вопроснику, используемому в
образовательном отборе, профориентации,
необходимо приводить корреляцию его
баллов с общепринятыми мерами вербальной
и вычислительной способности в
соответствующей популяции. (Очень
желательно.)
Г.9.2.2.
В руководстве должна быть представлена
информация о факторных исследованиях
(если тест подвергался им), показывающих
процент тестовой дисперсии, выявляемой
хорошо известными факторами. (Желательно.)
Г.9.2.3.
Для опросников, являющихся мерами
личности, интересов или установок,
должны быть представлены доказательства
степени, с которой оценки чувствительны
к попыткам испытуемых представить
социально желаемую (конформную)
картину своей личности или с которой
баллы могут отражать другие искажающие
особенности ответов. Такие виды ответов
должны изучаться в первую очередь для
определенных выборок, а не для более
общей генеральной выборки. Могут быть
представлены корреляционные или
экспериментальные исследования.
(Очень желательно.)
Г.9.2.4.
Если тест, проводимый с ограничением
во времени, интерпретируется в качестве
измеряющего гипотетическое психологическое
свойство, не связанное специально с
быстротой выполнения теста, то должны
быть представлены свидетельства о
влиянии скорости на тестовые баллы и
об их корреляции с другими переменными.
(Существенно.)
Комментарий.
Наиболее полным доказательством влияния
скорости выполнения может быть
сравнение баллов по двум формам с
обычным ограничением при неограниченном
времени. Корреляция баллов этих вариантов
имеет ограниченный смысл, т. к. эти
два балла не являются независимыми.
Менее исчерпывающим доказательством
является процент испытуемых,
ответивших на последнее задание или
некоторое задание, близкое к концу
теста, за время, отведенное на выполнение
теста. Если этот процент ниже 90,
необходимо более глубокое исследование,
чтобы показать, что индивидуальные
различия по тесту существенно не
отражают скорости.
Г.9.2.5.
Если различия в стратегии выполнения
теста влияют на интерпретацию баллов,
связанных с определенными характеристиками
подгрупп, об этом должна быть дана
ясная информация или ясно указано на
отсутствие ее. (Очень
желательно.)
Г.9.2.6.
Если свидетельство против противоположной
интерпретации основано на низкой
корреляции при малом различии между
группами, в руководстве необходимо
сообщить доверительность поправки
или обсудить ошибки измерения, которые
могли снизить соответствующую
зависимость. (Желательно.)
Д. Сведения о процедуре применения
теста.
Интерпретация тестов и
средств измерения, так же как и
результатов эксперимента, наиболее
надежна, когда измерения ведутся в
стандартизированных и контролируемых
условиях. Конечно, в тестировании
существуют ситуации, когда важно
систематически менять обстоятельства
для максимального понимания деятельности
индивида. Например, исследователь может
систематически менять процедуры в
последовательных повторениях теста,
чтобы выяснить пределы умения ребенка
в определенной содержательной области.
Тем не менее, составитель теста должен
сам предусмотреть стандартные процедуры,
в которых возможна подобная модификация.
Вне стандартизации качество интерпретации
может ухудшиться в степени, с которой
различия в процедуре влияют на результаты
тестирования.
Для большинства целей
наибольший упор делается на строгую
стандартизацию процедур проведения
тестов и инструкций к нему. Если тест
предназначен для разнообразных
популяций, эти процедуры должны быть
полностью доступны для всех испытуемых
из каждой популяции.
Д.1. В
руководстве к тесту должна быть указана
квалификация и специализация, необходимая
для проведения теста и его интерпретации.
(Существенно.)
Комментарий.
Однако из руководств в определении
квалификации, необходимой для
индивидуального тестирования детей
данным тестом, различают психологов,
которые работают с детьми, и тех, кто
работает только со взрослыми. Другое
руководство указывает на специфичность
тестирования учащихся, родной язык
которых отличается от языка теста.
Квалификация пользователя может быть
описана путем указания на профиль
специального обучения, которое в общем
считается необходимым для достижения
компетентности. В некоторых руководствах
к тестам могут выделяться наиболее
частые источники ошибок применения
теста и указываться виды обучения
пользователей, дающие возможность
устранить эти ошибки.
Д.1.1.
Если тест рекомендован для нескольких
целей и типов заключений, в руководстве
следует указать степень обученности
пользователей, необходимую для каждого
применения. (Существенно.)
Д.1.2.
Если авторы предполагают, что тест
может использоваться неспециалистами,
то руководство должно быть написано
в форме, доступной их пониманию.
(Существенно.)
Комментарий.
С тестом могут иметь дело не только
лица, специально обученные этому.
Испытуемые, члены педагогических и
общественных комиссий, родители имеют
также основание для суждений по
тесту. Это их право не вступит в
противоречие с необходимостью сохранять
тайну, если им доступны описательные
и объясняющие материалы.
Д.1.3.
Руководство не должно допустить,
чтобы тест понимался как
«самоинтерпретирующийся». В нем
должно быть указано, какую информацию
о результатах тестирования возможно
представить лицам, не имеющим необходимой
для интерпретации подготовки.
(Существенно.)
Комментарий.
Обычно желательно получать
интерпретацию оценок подготовленным
лицам. Конечно, существуют тесты,
результаты которых могут быть оценены
испытуемыми; часто полезно сообщать
тестовые баллы учащимся и родителям.
Если это практикуется, смысл данного
требования в том, что должны даваться
необходимые сведения по интерпретации
этих баллов.
В руководстве должно быть
указано, что может выполняться необученным
лицом и что не может выполняться.
Например, в одном руководстве к
широко известному тесту интересов
указывается, что испытуемые могут
усвоить способы оценивания результатов
собственных ответов, но подчеркивается,
что они нуждаются в помощи
квалифицированного учителя или
консультанта при интерпретации
результатов и построении планов на
будущее.
Д.2. В
руководстве к тесту следует указать
степень необходимого для теста
сохранения тайны его содержания в
ходе предварительной тренировки. (Очень
желательно.)
Комментарий.
Тест числового ряда предполагает
тренировочную практику, для того
чтобы испытуемые лучше поняли
инструкцию. Данная тренировочная
практика не дублирует заданий теста
и, следовательно, сохраняет содержание
самого теста в тайне.
Д.2.1. В
руководстве должны быть описаны
примеры неприемлемой практики. (Очень
желательно.)
Д.3. В
руководстве к тесту необходимо
отразить основные этапы процедуры его
проведения. (Существенно.)
Комментарий. Обычно последовательность
проведения теста такова:
1) объяснить испытуемым цель проведения
теста;
-
гарантировать сохранение тайны
индивидуальных ответов; -
в соответствии с требованиями
руководства прочитать инструкцию и
провести тренировку; -
попросить испытуемого или
самому заполнить (если требуется)
паспортные и биографические данные в
регистрационных бланках; -
ответить на имеющиеся вопросы;
-
обработать результаты
теста в соответствии с требованиями
руководства.
Д.4.
Инструкции по проведению должны быть
отражены в руководстве к тесту максимально
подробно, с подчеркиванием, что
пользователь теста может и должен
воспроизвести те условия тестирования,
при которых разработаны нормы и получены
данные о надежности и валидности.
(Существенно.)
Комментарий.
Так как лица, проводящие тесты в
школах и на производстве, иногда
могут не поступать строго по инструкциям
и не понимать необходимости их
соблюдения, важно, чтобы руководство
в этом отношении было очень убедительным.
Для обеспечения стандартности
процедуры некоторые тесты проводятся
полностью механизированным способом.
Д.4.1.
Инструкции, опубликованные в руководстве
к тесту, должны быть достаточно
полными, чтобы тестируемые понимали
необходимость действовать так, как
подразумевал автор теста. (Существенно.)
Комментарий.
Например, при заполнении опросника
личности субъект иногда может давать
первый встретившийся ему ответ.
Следовательно, подобная возможность
должна быть указана в инструкции,
которую субъект читает или которая ему
зачитывается. Инструкция для вопросников
интересов должна определить, следует
ли испытуемому отмечать то, что ему
нравится в идеале, или также следует
предусмотреть возможность того, что
ему необходимо иметь благоприятные
условия и способности этого достигнуть.
Подобным образом в инструкции необходимо
определить, следует ли испытуемому
отмечать то, что ему нравится, но
встречается иногда, или только то, что
ему нравится и встречается постоянно.
Д.4.1.1.
Инструкция должна четко подчеркнуть
такие критические моменты, как указания
об угадывании, лимиты времени и способ
ответов. (Существенно.)
Д.4.1.2.
Инструкция для тестирующего должна
содержать указания по поводу вопросов
со стороны испытуемых. (Очень
желательно.)
Д.4.2.
Если предусматривается возможность
изменения и совершенствования
инструкций, описанных в руководстве к
тесту, то должны быть ясно указаны
условия, при которых позволительно
это делать; эти условия приводятся
или в форме общих правил, или на
основе значительного числа примеров,
или тем и другим способом. (Существенно.)
Д.5.
Инструктаж должен подготовить испытуемого
к обследованию: необходимо предусмотреть
подборки необходимых видов стимульного
материала, листы ответов, карандаши,
ручки и т. п. (Желательно.)
Д.6.
Процедуры выставления баллов по тестовым
заданиям должны быть изложены в
руководстве с максимальной детализацией
и ясностью, чтобы уменьшить вероятность
ошибки при оценивании. (Существенно.)
Д.6.1. В
руководстве к тесту должны быть
представлены инструкции по оцениванию
результатов выполнения задания и
указаны процедуры предотвращения
ошибок подсчета и вычисления. (Очень
желательно.)
Д.6.2.
Если оценивание результатов теста
содержит субъективные процедуры, в
руководстве должны быть представлены
данные степени согласованности
независимых оценщиков в операциональных
условиях. Если таких свидетельств
не имеется, в руководстве должно
быть обращено внимание на вариации
оценивания как возможный значимый
источник ошибок измерения. (Очень
желательно.)
Д.6.3.
Если в тесте используется более чем
один метод выражения ответов испытуемыми,
руководство к тесту должно сообщить
данные о степени, с которой результаты,
полученные при использовании различных
методов, взаимозаменяемы. (Существенно.)
Комментарий.
Разное количество времени, необходимого
для ответа на задания в формах,
приспособленных к разным методам
выставления баллов, может влиять на
надежность или валидность теста, на
применимость тестовых норм.
Д.6.4.
Если использована необычная или сложная
система выставления балов, в руководстве
к тесту необходимо указать приблизительное
количество времени, необходимое для
выставления баллов по заданиям теста.
(Желательно.)
Д.6.5.
«Формулы поправки на угадывание»
должны использоваться при заданиях
с множественным выбором или при ответах
вида «истинно – ложно» теста на скорость
выполнения заданий. (Желательно.)
Е.
Сведения о
процедуре обработки и интерпретации
тестовых результатов.
По традиции интерпретация
тестовых баллов является
нормированно-референ-тной, т. е.
индивидуальная оценка интерпретируется
в сравнении с оценками других
индивидов. Однако возможны и другие
интерпретации. Содержательно-референтная
интерпретация имеет место, если балл
интерпретируется непосредственно,
соответственно деятельности на каждой
точке измеренного континуума достижений.
Критериально-референтная интерпретация
отражает непосредственно интерпретацию
баллов в соответствии с деятельностью
в любой данной точке континуума
внешней переменной. Переменной
внешнего критерия могут быть средние
оценки или уровни трудовой деятельности.
Стандартные требования параграфа
в принципе относятся больше к
нормированно-референтным интерпретациям
тестов и в меньшей степени к
содержательно-референтным.
Е.1.
Нормы должны публиковаться в руководстве
к тесту одновременно с публикацией
теста (для операционального использования).
(Существенно.)
Е.1.1.
Нормы должны быть определены также
к тесту, разработанному только для
локального применения или только для
целей предсказания. (Желательно.)
Комментарий. Иногда
забывают, что таблицы норм дают
информацию, полезную не только для
сравнения индивида с групповыми данными.
Например, пользователь теста из
таблицы норм может извлечь информацию
относительно уровня баллов, на котором
различительная сила измерения хороша
или плоха.
Е.1.2.
Даже если предполагается, что тест в
первую очередь будет использоваться
с локальными нормами, в руководстве к
тесту следует предусмотреть нормировочные
данные, чтобы помочь интерпретатору,
не имеющему локальных норм. (Очень
желательно.)
Е.2.
Нормы, представленные в руководстве
к тесту, должны относиться к определенным
и ясно описанным популяциям. Этими
популяциями должны быть группы, с
которыми пользователи теста обычно
желают сравнивать тестируемых лиц.
(Существенно.)
Комментарий.
Почти во всех случаях, когда тесты
разработаны не только для локальных
целей, пользователь хочет знать,
насколько они применимы для различных
групп. Для тестов, разработанных с
целью широкого использования в школах
или в промышленности, необходима
информация о различиях и сходствах
нормативных данных для таких групп,
как группы по полу, национальности,
образованию или возрасту. В руководстве
должны быть описаны случаи, когда
нормы для одних групп также подходят
и для других групп.
Например, руководство к
вопроснику профессиональных интересов
или к тестам способностей, важных
для некоторых профессий, должно
подчеркивать, что лицо, получающее
высокую оценку интересов или
способностей к учебному предмету
или профессии при сравнении со «средним»
человеком, получает более низкую
оценку интересов при сравнении с
лицами, фактически занимающимися в
этой области. Так, высокий процентильный
балл по шкале музыкальных интересов,
в которой испытуемый сравнивается со
«средним» человеком, может быть
эквивалентен низкому процентильному
баллу при сравнении испытуемого с
профессиональным музыкантом.
Е.2.1.
Необходимо предотвращение ошибочного
впечатления о генерализованности
нормативных данных. (Существенно.)
Комментарий.
Нормативные данные, полученные для
выборки людей или школ со специфическими
чертами, часто используются так, как
будто они получены по репрезентативным
общегосударственным группам. Так,
имеются пользователи тестов, которые
могут сказать, что испытуемый читает
на уровне десятиклассника, вне учета
того, что нормы фактически получены на
основе лучших школ, добровольно принявших
участие в исследовании по разработке
теста. Ошибкой интерпретации является
предположение, что нормы добровольных
групп учащихся приложимы к школам
вообще. Сфера действия таких ошибок
может быть сокращена, если в руководстве
к тесту четко определены характеристики
нормативной популяции.
Е.2.1.1.
В руководстве к тесту необходимо
сообщить метод отбора выборки из
популяции испытуемых и обсудить
вероятное смещение в выборочной
процедуре. (Существенно.)
Е.2.1.2.
Нормы, сообщенные в руководстве к
тесту, должны быть основаны на хорошо
спланированной выборке, а не на данных,
собранных в основном из-за их относительной
доступности. Любое отклонение от
намеченного плана должно быть отражено
одновременно с описанием действий,
предпринятых или не предпринятых в
связи с этим. (Существенно.)
Комментарий.
Нормы профессиональных и педагогических
тестов иногда основаны на разрозненных
выборках тестируемых, так как авторы
иногда просят пользователей тестов
прислать результаты тестирования
для использования их в последующих
сообщениях о тестовых нормах.
Полученные таким образом распределения
подвержены смещениям неизвестного
типа и степени. Следовательно, методы
получения выборок должны быть ясно
описаны.
Е.2.1.3.
Наряду с сообщением числа индивидов,
результаты тестирования которых
были использованы при разработке
нормативных данных, руководство должно
также сообщить число выборочных единиц
(например, классов), из которых были
взяты эти индивиды, а также число
индивидов в каждой единице.
(Существенно.)
Е.2.2. В
руководстве к тесту описание нормативной
группы должно быть достаточно полным,
чтобы пользователь мог судить о
пригодности для собственного применения.
В описании должно быть указано число
случаев, классифицированных по одной
или более таких переменных, как возраст,
пол, социоэкономический статус,
образовательный уровень. Если взята
обобщенная выборка, в описании
нормативной группы должно быть
указано число отдельных тестированных
групп. (Существенно.)
Комментарий.
Для описания нормативных данных в
руководствах часто используются
классификационные системы в целом.
Например, в руководстве к одной методике
даны сведения для многих профессиональных
и образовательных групп. Однако
отсутствие информации о таких признаках,
как пол, возраст, образование и
уровень опыта, внутри этих групп
существенно уменьшает полезность норм.
Е.2.2.1.
В руководстве должны быть ясно и рельефно
описаны популяции, на основе которых
определены психометрические свойства
теста и для которых применимы
нормативные данные. В любом сообщении
о доработке теста должны отразиться
характеристики нормативных групп,
использованных в интерпретации
результатов. (Существенно.)
Комментарий.
Назначение этого стандартного требования
— предупредить пользователей и
испытуемых относительно необоснованных
интерпретаций. Если сообщение о
стандартизации представляет
результаты в интерпретации процен-тильных
рангов или стандартных баллов при
последовательном использовании той
же нормативной популяции, будет
достаточным определение этой
популяции с указанием времени сбора
данных.
Е.2.3.
Если выборка, на основе которой
установлены нормы, мала или, по другим
причинам, ненадежна, в руководстве к
тесту необходимо ясно предупредить
пользователя относительно возможности
величины ошибок при интерпретации
баллов. (Существенно.)
Е.2.4. В
руководстве к тесту нормы по субтестам
или группам заданий сообщаются
только в том случае, если указана
валидность и надежность таких субтестов
или групп заданий. (Существенно.)
Комментарий.
Пользователь теста уверен, что, когда
даны нормы для части теста, автор
считает их пригодными для интерпретации.
Должна сообщаться также надежность и
валидность таких баллов.
Е.2.5. В
руководстве к тесту должны быть описаны
условия, при которых получены
нормативные данные. (Существенно.)
Комментарий.
В случае, когда некоторые аспекты
стандартизированы на группах кандидатов
на работу, другие — на группах,
обратившихся за профконсультацией, а
третьи — на группах, осознающих себя
как испытуемые, то между такими группами
и внутри них индивиды часто различаются
по мотивации выполнения теста,
установке к его выполнению, способностям
и личностным характеристикам, хотя
точное описание этих различий не
всегда возможно.
Е.3. При
сообщении норм в руководстве к тесту
следует пользоваться процен-тилями
для одной или нескольких подходящих
референтных групп или стандартными
баллами, для которых ясно определено
основание. В руководстве к тесту должны
быть даны меры центральной тенденции
и рассеивания. (Существенно.)
Е.3.1.
Если тест используется для предсказания,
должны быть приведены, насколько это
возможно, таблицы ожиданий или
эмпирические таблицы перевода баллов
в уровни вероятности успеха или умения.
(Желательно.)
Е.4.
Для многих применений
теста локальные нормы более важны,
чем опубликованные. В таких случаях
руководство к тесту должно давать
возможность использования локальных
норм. (Очень желательно.)
Е.5. В
руководстве к тесту должны быть полностью
описаны производные шкал, использованные
для стандартизированных баллов,
чтобы увеличить вероятность точной
интерпретации и понимания баллов
интерпретатором теста и испытуемым.
(Существенно.)
Комментарий.
Целесообразно сократить число производных
шкал до нескольких, с которыми
пользователи были бы знакомы. Существующее
разнообразие ведет к необходимости
описания таких шкал в каждом руководстве.
Проблема, в частности, в том, что теперь
используются многие различные
системы, не имеющие логических
преимуществ по сравнению друг с
другом. Для преодоления недостатков
старых методов шкалирования могут быть
предложены новые. Разнообразие шкал
для окончательных тестовых оценок
может привести к недоразумениям и
ошибочным интерпретациям, если шкалы,
рекомендованные для данного теста, не
описаны в руководстве ясно и полно.
Е.5.1.
Построение шкалы на основе нормативных
данных должно быть ясно и недвусмысленно
описано в терминах, предотвращающих
нарушения и интерпретации или
неправильные обобщения. (Существенно.)
Комментарий.
Производные оценки могут быть очень
полезны для выводов. Однако очень
часто они рассматриваются как имеющие
абсолютный смысл независимо от отдельного
теста и нормативной популяции.
Примером является коэффициент интеллекта,
который зачастую понимается как
просто стандартный балл, который часто
видоизменяется и интерпретируется
так, словно он отражает неизменную и
независимую характеристику
испытуемого. Оценки эквивалентности
классу обучения или даже процентильные
ранги также могут интерпретироваться
неправильно, как некие абсолютные
величины, если в руководстве к тесту
не приведены характеристики групп,
на которых эти оценки построены.
Е.5.2. В
руководстве необходимо указать,
являются ли стандартные баллы результатом
линейной или нелинейной трансформации
суммарных баллов. (Существенно.)
Е.5.2.1.
Интерпретационных баллов, которые сами
по себе включают существенную
ошибочность интерпретации (оценки
умственного возраста, эквивалентности
классу обучения и др.) надо избегать.
(Очень желательно.)
Комментарий.
Если, несмотря на эту рекомендацию, в
руководство включены подобные
оценки, необходимо предусматривать
в табличной форме также их связь со
стандартными баллами или процентильными
рангами внутри каждой категории и
внутри соответствующей нормировочной
группы. Например, таблица может отразить
вдобавок к баллу эквивалентности
классу обучения соответствующий
процентильный ранг внутри собственного
возраста или класса испытуемых для
каждого суммарного балла. Для старших
классов больше подходят нормы внутри
предметов, чем внутри классов.
Е.5.3.
Если в руководстве к тесту предполагается,
что процентильные ранги будут
выражаться графически профильной
звездочкой, график должен основываться
на нормальной вероятностной шкале или
на некоторой другой приемлемой
нелинейной трансформации. (Очень
желательно.)
Е.6. Если
шкалы пересмотрены, добавлены новые
формы или сделаны другие изменения, в
пересмотренном руководстве к тесту
должны быть помещены таблицы
эквивалентности старой и новой форм.
(Желательно.)
Комментарий.
Новые формы теста должны быть
приравнены к недавно определенным
шкалам стандартных баллов других
форм, чтобы пользователь мог быть
уверен, что баллы, предложенные по новым
формам, сравнимы с баллами предыдущих
форм.
Е.6.1.
Если новая форма теста приравнена
к старой, в пересмотренном руководстве
должно быть описано содержание и старой
и новой форм, а также характер нормативных
групп для них. (Существенно.)
Комментарий.
Изменения в знаниях, технологии или
учебном материале могут потребовать,
чтобы новое издание тестов существенно
отличалось от прежних, а потребность
преемственности требует приравнивания
окончательных шкал друг к другу.
Пользователь должен иметь возможность
оценить эквивалентность в соответствии
с изменениями содержания, поскольку
у него возникают сомнения, возможно ли
значимое сравнение баллов при
изменении содержания.
Е.6.2. В
руководстве должен быть описан метод
установления эквивалентности или
сравнимости оценок и должна быть дана
оценка точности процедуры приравнивания.
(Очень желательно.)
Е.7. Если
предполагается, что тест будет
использоваться не столько для оценки
индивидов, сколько групп (например, для
школ или программ), должны быть
представлены нормативные данные,
основанные на суммарных групповых
статистиках. (Существенно.)
Комментарий.
Например, нецелесообразно оценивать
школы применением норм, разработанных
для оценки индивидов. Также нельзя
вычислять групповые средние по нелинейным
шкалам, например по процентильным
рангам, выведенным для индивидуальных
норм.
Е.8.
Тест, руководство, формы записи ответов
и другие сопровождающие материалы
должны помогать пользователю правильно
интерпретировать результаты теста и
предупреждать неправильное его
употребление. (Существенно.)
Комментарий.
Многие руководства к тестам
подчеркивают переменные, которые
следует учитывать при интерпретации
тестовых оценок. Это может быть информация
об учебных достижениях, рекомендации
или соответствующие анамнестические
данные.
Е.8.1.
Руководство к средству оценивания
личности может включать данные,
показывающие, что психолог должен
учитывать такие факторы, как пол и
возраст субъекта, женаты или разведены
его родители, возраст и пол его детей,
его профессиональный и супружеский
статус и т. д.
Е.8.2.
Руководство к тесту должно подчеркнуть
те существенные влияния на тестовую
оценку, которые связаны с регионом,
социоэкономическим статусом,
национальностью или полом.
(Существенно.)
Е.9.
Руководство должно обратить внимание
пользователя на публикации, с которыми
он должен ознакомиться до тестирования
для более точной интерпретации
результатов теста. (Очень
желательно.)
Комментарий.
Публикациями могут быть книги или
статьи, относящиеся к смежным
психологическим теориям или к самому
тесту, о котором идет речь.
Е.10.
Изложение описываемых в руководстве
зависимостей по смыслу является
количественным и должно быть приведено
с точностью, которую позволяют данные.
Если данные в поддержку таких утверждений
не были собраны, этот факт должен быть
ясно указан. (Существенно.)
Комментарий.
Авторы, например, иногда пишут: «Для
инженера-архитектора требуется
способность пространственного
мышления» или «Необычные ответы могут
указывать на наличие шизофрении».
Такие утверждения сами по себе
количественно неадекватны. Какая
частота эксцентрических ответов
указывает на уже развившуюся
шизофрению? Насколько успех в архитектуре
зависит от пространственной способности?
Количественные данные, связывающие
тестовые оценки с определенными
критериями, должны помочь получить
ответы.
Е.10.1.
Для сообщения количественной
информации предпочитаются хорошо
известные и легко интерпретируемые
статистические процедуры. Любая
необщепринятая статистическая
техника должна быть объяснена, и должны
быть приведены ссылки на источники.
(Существенно.)
Комментарий.
Издатели не обязательно должны
однообразно придерживаться процедур,
широко используемых для сообщения
данных, но технологии и процедуры должны
быть довольно известными на практике,
чтобы компетентные пользователи могли
адекватно судить о результатах.
Это стандартное требование
является конкретизацией принципа, что
представленные в руководстве данные
не должны вводить в заблуждение.
Например, ошибочно показывать
ценность объединенных в батарею тестов
в уравнении регрессии путем использования
данных с интеркорреляцией более
низкой, чем о ней сообщалось в другом
месте руководства.
Е.10.2.
Когда сообщается статистическая
значимость, сообщение должно быть в
форме, которая делает ясным чувствительность
или мощность критерия значимости.
(Существенно.)
Комментарий.
Статистическая значимость, не имеющая
практической полезности, часто может
быть получена использованием очень
большого числа случаев. Наоборот, тот,
кто использует нечувствительный
статистический критерий, может
сделать ошибочный вывод об отсутствии
важного в практическом смысле
различия. В общем, при сообщении тестовых
данных более приемлемо определить
доверительный интервал или функцию
правдоподобия интересующего параметра,
а не просто сообщить, что нулевая
гипотеза может или не может быть
отклонена.
Е.10.3. В
руководстве должны ясно различаться
интерпретация, которая приложима только
к средней тенденции группы, и
интерпретация, приложимая к любому
индивиду внутри группы. (Существенно.)
Комментарий.
Некоторые тесты достаточно надежны
для обеспечения относительно
стабильного среднего балла группы, но
недостаточно надежны, чтобы обеспечить
использование индивидуальных баллов
или позволить сравнение индивидов.
Е.10.4. В
руководстве должно быть ясно указано,
какая интерпретация относится к
каждому баллу субтеста в той же степени,
как и для всего теста. (Существенно.)
Комментарий.
В руководстве должно быть четко указано,
когда баллы субтестов получены только
для простоты вычисления балла всего
теста и не предлагают самостоятельного
использования, когда они могут иметь
исследовательское применение, и
предусматривается ли при этом их
интерпретация.
Е.11.
Составители тестов или другие лица,
использующие ЭВМ для интерпретации
тестов, должны предусмотреть руководство,
отражающее алгоритм и свидетельства
в поддержку интерпретации баллов
на основе ЭВМ. (Существенно.)
Комментарий.
Вычислительная машина позволяет
накопить и воспроизвести большое
количество данных. Интерпретация
теста может быть очень облегчена
использованием банка данных, накопленных
в ЭВМ на основе совокупности
индивидуальных оценок по батарее
тестов или вопроснику личности.
Пользователь таких массивов
должен знать обоснование и свидетельства
в пользу предполагаемой интерпретации,
так как она подвержена ошибкам в той
же степени, как и другие субъективные
интерпретации.
Данный пункт относится только к хранению
и обработке информации, введенной
в ЭВМ.
Проведение тестов
неавтоматизировано и осуществляется
обычным способом. В том случае, когда
пользователь хочет автоматизировать
и проведение теста, тест должен пройти
полную психометрическую проверку.
Индекс материала |
---|
Методы в психолого-педагогической диагностике |
Психолого-педагогический эксперимент |
Письменный опрос: анкетирование |
Тестирование |
Контент-анализ |
Все страницы |
Страница 4 из 5
Тестирование
Тестирование широко используется как в психологии, так и в педагогике. Однако данный метод имеет как общие, так и специфические характеристики для этих двух сфер.
Общим для тестирования является наличие стандартизированных заданий, составленных по определенным правилам. Тесты как инструменты должны отвечать общим требованиям, предъявляемым к их разработке и процедуре использования.
Специфика психологического тестирования заключается в том, что оно проводится с целью диагностирования и в его ходе оцениваются качества личности. Педагогическое тестирование, как правило, используется для диагностики сформированное™ результатов, полученных в процессе обучения и воспитания, — знаний, умений, навыков, а в последнее время — компетенций. Диагностика результатов, полученных в процессе обучения, получила название «дидактический контроль». Для контроля за результатами обучения используются дидактические тесты.
Тем не менее, в педагогической практике нашли широкое применение психологические тесты, позволяющие оценивать отдельные характеристики личности учащихся.
Наибольшую популярность имеют личностные опросники. Это большая группа психодиагностических методик, используемых в педагогической и психологической практике для выявления различных аспектов структуры личности в целях типологизации и характеристики достигнутого уровня развития диагностируемых личностных свойств. В литературе эти методики нередко называются также личностными тестами.
Личностные опросники конструируются в виде серии вопросов, по которым надо высказать собственные оценки или самооценку (в основном — в форме предпочтений определенных суждений, характеристик в альтернативной форме «да — нет», «соответствует — не соответствует» типичному поведению). Подсчет и анализ данных проводится либо по всем заданиям, либо по шкалам.
Рекомендуется формулировать высказывания личностного опросника с учетом следующих правил:
1. Высказывания должны быть по возможности краткими, содержать не больше одного придаточного предложения.
2. Все высказывания должны быть понятны всем обследуемым (сформулированы в простых выражениях с общеупотребительной лексикой).
3. Варианты ответов к каждому высказыванию теста желательно строить с одинаковым числом альтернатив (от 5 до 11), что позволит повысить врабатываемость обследуемого и облегчит обработку результатов.
4. В тесте (опроснике, оценочной шкале) необходимо стремиться к сбалансированному количеству высказываний с позитивными и негативными суждениями, чередуя их в случайном порядке.
5. Следует избегать оборотов с отрицанием «не», предпочтительно что-то утверждать (как позитивное, так и негативное).
6. Каждое предложение должно содержать одно, а не несколько утверждений (иначе затруднительно определить, к какому из нескольких собранных вместе утверждений относится ответ).
Высказывания личностных опросников обладают, по сравнению с вопросами анкет (интервью), рядом сильных сторон: они более соответствуют эмпирическим данным, не требуют переформулировки в вопросы. С помощью высказываний предопределяется позиция суждения, известная точка зрения, что облегчает принятие диагностического заключения. Высказывания действуют косвенно, что при личпостно значимом или интимном характере диагностируемого свойства (явления, формы поведения, мнения) повышает готовность респондента к ответам. Техника построения высказываний как индикаторов проще, их легче собрать в индикаторные комплексы — батареи (что особо важно при исследовании установок); шкалы ответов легче и рациональнее строятся с помощью высказываний, чем с помощью вопросов анкетного типа. Высказывания-индикаторы могут быть выражены несколькими фразами, альтернативами разрешения какой- либо проблемной ситуации.
Стандартизированный тест сопровождается в обязательном порядке руководством к тесту, содержащим основные сведения о нем и рекомендации по организации процедур тестирования, анализу и обработке данных.
Руководство к тесту — основное информационно-методическое обеспечение диагноста. Оно включает в себя следующие элементы:
• полное название теста;
• характеристика его диагностических целей, задач;
• сведения о разработчиках: кто, где работает, ученые степени и звания, иногда — чем известны в науке (являются авторами методик, книг, занимают должности в престижных профессиональных или национальных, международных организациях);
• описание структуры теста (иногда и его спецификация);
• сведения о модернизации (модификациях, версиях) теста, имеющиеся у его издателя;
• сведения о репрезентативности выборки апробации, ее сильных и слабых сторонах (какие подгруппы проектируемого контингента обследуемых отражены хуже или лучше);
• сведения о надежности и методах ее проверки (в том числе применительно к подгруппам обследованного контингента);
• сведения о валидности содержательной (соответствие содержания теста измеряемой области психических свойств или дидактических целей), критериальной (соответствие результатов обследования показателям и критериям измеряемого свойства), локальной (соответствие результатов обследования результатам для категорий людей, имеющих общий признак,- возраст, пол, успеваемость и др. или статистические параметры), конкурентной (соответствие результатов обследования результатам, полученным с помощью других стандартизированных тестов);
• указание степени секретности тайны результатов и диагноза;
• нормативы (обычно с кратким описанием процедур их выработки или даже с приложением исходных таблиц, обязательно — со ссылками на литературу, в которой отражены методологические исследования такого типа по данному тесту). Нормативы в хороших стандартизированных тестах даются не только по всему контингенту (обычно для возрастных групп или года обучения в школе), но и по специфическим подгруппам, например, национальных меньшинств, мальчиков и девочек. Это считается показателем добросовестности составителей теста, их внимания к пользователю.
В руководство теста часто включают данные о возможном распределении возрастания показателей при тестировании параллельными формами. Большинство применяемых стандартизированных тестов составлялось еще в докомпьютерную эпоху, поэтому рядом с нормативами обычно приводятся подробно описанные процедуры обработки результатов тестирования (с формами таблиц, графиков представления данных, технологией перевода «сырых» баллов в оценочные по шкалам субтестов и по тесту в целом). Хорошее руководство к тесту фиксирует внимание пользователя- диагноста на типичных противоречиях в ответах или особо симптоматичных для целей диагностики данных (наиболее информативных показателях). Многие стандартизированные тесты имеют свои компьютерные версии и почти все современные тесты — компьютерные программы обработки. Обычно компьютерные версии тестов предлагаются отдельно. Поскольку за рубежом, например в США, в большинстве штатов приняты законы об аттестации и лицензии психологов, применяющих тесты, в руководстве теста указывается необходимый уровень квалификации пользователя. Обычно требуется степень доктора философии (в бывшем СССР это уровень кандидата психологических наук) плюс определенное знакомство с практической деятельностью и удовлетворительная сдача квалификационного экзамена.
Метод экспертных оценок
Данный метод обеспечивает «внешний» взгляд на характеристику поведения учащегося.
Метод имеет широкий возрастной диапазон.
Заполняется экспертный лист.
Экспертная оценка часто используется в работе судей на спортивных соревнованиях, а также в работе жюри на артистических конкурсах. В настоящее время под экспертным методом понимается любая процедура, с помощью которой производится классификация объектов или оценка степени выраженности какого-либо качества путем опроса экспертов, т. е. лиц, хорошо разбирающихся в существе дела и способных достаточно четко и адекватно выражать свои мнения . Как правило, говоря об экспертных оценках, имеют в виду работу группы экспертов, по не исключаются случаи, когда экспертная оценка осуществляется одним специалистом.
Сущность метода экспертных оценок заключается в проведении субъективного интуитивно-логического анализа проблемы с количественной оценкой и формальной обработкой результатов. Полученное в результате обработки обобщенное мнение экспертов принимается как диагноз.
Педагогической экспертизой называется совокупность процедур, необходимых для получения коллективного мнения в форме экспертного суждения (или оценки) в педагогическом объекте (явлении, процессе).
Экспертные методы не являются формальными. В них остается широкое поле для творческой импровизации, где опыт и интуиция преобладают над строгими измерениями. Результаты работы экспертной группы неизбежно будут содержать отпечаток субъективизма, вносимого как самими экспертами, так и организаторами экспертного опроса.
В психолого-педагогической диагностике используются следующие экспертные методы.
Индивидуальная экспертная оценка — субъективное оценивание сформированное™ качеств личности отдельных учащихся или группы, педагогов.
Рейтинг — оценивание экспертами успешности деятельности, уровня воспитанности.
Метод самооценки — оценка субъектом собственных способностей, личностных качеств.
Метод психолого-педагогического консилиума — коллективное оценивание и диагностика учебных способностей учащихся.
Метод экспертных оценок применяется при оценке учебных действий, уровня развития личностных качеств; при прогнозировании успешности деятельности, способностей и т. п.
Метод групповых экспертных оценок — коллективная экспертная оценка психолого-педагогических явлений. В групповой экспертной оценке экспертами могут выступать педагоги, специалисты различных профессий (психолог, медицинский работник, дефектолог идр.), учащиеся, их родители, близкие друзья и знакомые, т. е. люди, хорошо знающие обследуемого.
Задача экспертов — характеристика личностных качеств учащегося и отнесение его к определенной категории людей.
Достоинством метода является возможность учета множества таких данных, которые не поддаются кодированию для обработки согласно составленной математической модели.
Недостатком метода является зависимость правильности поставленного диагноза от компетентности специалистов, проводящих обследование.
Преодоление трудностей метода, обусловленных его качественно-интуитивным характером, происходит за счет унификации диагностических процедур и разработки широкого ассортимента стандартных психометрических шкал, что позволяет минимизировать субъективные суждения там, где они оказываются слишком произвольными, неточными, ненадежными.
К разновидностям метода групповых экспертных оценок относят метод комиссии, метод Дельфи, метод мозгового штурма, метод эвристического прогнозирования и метод обобщенных независимых характеристик.
Вопрос о компетентности членов экспертной комиссии чаще всего решается путем установления соответствия знаний оцениваемой области, например профессиональной подготовки и личного опыта.
В ходе экспертизы проводится точное протоколирование высказываемых мнений. При этом в работе экспертных комиссий допускается, что мнение одного эксперта не совпадает с диагнозами других экспертов.
При проведении экспертной оценки придерживаются следующих правил:
1. Содействие всестороннему ознакомлению эксперта с информацией его сферы компетентности.
2. Обеспечение достоверности дополнительной информации, используемой экспертом.
3. Содействие формированию мнений, которые определялись бы только свойствами диагностируемого человека, личными профессиональными знаниями, опытом и интуицией экспертов.
Для любой экспертизы обязательными являются две фазы — изучение экспертами объекта экспертизы и формулирование индивидуальных суждений, затем производится обработка полученных результатов с целью определить коллективную оценку.
Анализ документации
Для психолого-педагогической диагностики особый интерес представляют такие педагогические документы, как классные журналы, дневники учащихся, тетради учащихся, письменные и контрольные работы учащихся, протоколы собраний, учебно-программная документация, дидактические материалы и др.
Анализ педагогических материалов часто используют для выяснения:
• отношения учащегося к какому-либо явлению учебной жизни, например, к изучаемому учебному предмету (ведение записей в тетради); отношения к другим учащимся (эссе на тему дружбы) и др.;
• уровня развития учащегося, например, сложность и скорость решения задач позволяет установить уровень умственного развития, эссе — уровень нравственного развития и т. п.;
• уровня обученности учащегося, например, высокие оценки по различным предметам позволяют оценить качество подготовки по тому или иному учебному предмету, а также уровень сложности выполняемых учащимся заданий и др.;
• уровня воспитанности учащегося, например, отсутствие опозданий на учебные занятия свидетельствует о наличии дисциплинированности, высокий рейтинг свидетельствует об ответственном подходе к учебной деятельности и др.
При анализе информации, представленной в документах, нужно относиться к ней критически, так как она может быть не всегда объективной. Поэтому надо уметь оценивать адекватность и достоверность документов. Прежде всего нужно выяснить, какие критерии использовались при оценке той или иной характеристики учащегося. Кроме того, следует помнить о защите персональных данных. Поэтому к личной информации следует относиться осторожно и деликатно.
Разработка тестов
по учебной дисциплине
Методические рекомендации
для преподавателей
Методические рекомендации содержат
основные требования к разработке тестов для проведения внутреннего аудита
качества профессиональной подготовки обучающихся, образцы тестовых заданий,
перечень типичных ошибок, допускаемых преподавателями при составлении тестов. Предназначены
для преподавателей – составителей тестов. Методические рекомендации могут быть
полезны при разработке тестов для обучающихся учреждений начального, среднего и
высшего профессионального образования.
СОДЕРЖАНИЕ
Введение
- Педагогический
тест как контрольно-измерительный материал - Этапы
и общие требования к разработке теста - Виды
тестовых заданий - Типичные
ошибки, допускаемые при составлении вопросов к тесту - Внутренняя
экспертиза теста - Оформление
тестового материала и подготовка его к компьютерному варианту тестирования
Словарь
терминов
Список
рекомендуемой литературы
ВВЕДЕНИЕ
В связи с
модернизацией современного высшего образования, с введением ФГОС третьего
поколения, возрастают требования к повышению качества педагогического контроля,
ведется поиск его лучших форм и методов, его экономичности, оптимизации. Оценка
качества образования также на сегодняшний день является наиболее приоритетной
проблемой в образовательной деятельности. Новый стандарт предполагает также
переход на рейтинговую систему контроля и оценки знаний слушателей, в связи с
этим большое значение приобретает измерение результатов усвоения программного
материала.
Мониторинг
качества образовательной системы предполагает, прежде всего, регулярный сбор и
обработку информации об уровне профессиональных знаний, умений студентов. Одним
из основных инструментов оценки качества уровня обученности студентов является
тестирование вообще и компьютерное тестирование в частности, позволяющие дать
достаточно объективную нормативно-ориентированную оценку учебных достижений
обучающихся.
Каким содержанием наполнено понятие
«педагогический тест»? Какие классификации педагогических тестов существуют, и
какие критерии применяются для оценки качества педагогических тестов? В чем
преимущество тестовых форм контроля в процессе обучения? Что понимается под
термином «тестовое задание», и какие правила необходимо соблюдать при
составлении тестовых заданий? Как составить тестирование обучающихся при
подготовке к внутреннему тестированию в рамках внутривузовской проверки
качества профессиональной подготовки? Ответы на эти вопросы, а также конкретные
образцы тестовых заданий разного вида представлены в данном учебно-методическом
издании.
Педагогический
тест как контрольно-измерительный материал
Педагогический тест
является наиболее распространенным контрольно-измерительным материалом в современном
образовательном процессу в вузе. Педагогический тест — это совокупность
заданий, отобранных на основе научных приемов для педагогического измерения в
тех или иных целях.
Педагогический тест рассматривается как система, как
упорядоченное множество тестовых заданий. Задания — это те элементы,
«кирпичики» из которых составляется педагогический тест.
Почему именно тестирование
становится все более массовым явлением в процессе педагогического оценивания?
Опыт
использования тестов в качестве инструмента для оценивания позволяет выделить
многие его преимущества, в частности, тест:
· это
более качественный и объективный способ оценивания, что достигается путем
стандартизации процедуры проведения (отсутствие субъективной оценки на всех
этапах тестирования) и стандартизации заданий;
· более
емкий инструмент – показатели тестов ориентированы на измерение степени,
определение уровня усвоения ключевых понятий, тем и разделов учебной
программы, умений, навыков, а не на констатацию наличия у обучающихся определенной
совокупности усвоенных знаний;
· позволяют
включить в экзаменационную работу гораздо большее количество заданий;
· это
более «мягкий» инструмент, они ставят всех испытуемых в равные условия,
используя единую процедуру и единые критерии оценки, что приводит к снижению
нервного напряжения;
· широкий
инструмент – и с точки зрения интервала оценивания;
· более
эффективен с экономической точки зрения, так как при тестировании основные
затраты приходятся на составление качественного инструментария.
Было бы конечно
большой ошибкой считать, что педагогическое тестирование свободно от
недостатков. Применение педагогических тестов – эта та область знаний и умений,
которая поддается формализации. Но далеко не все учебные дисциплины или их
разделы формализуемы.
К недостаткам тестов следует отнести то, что тестовый
контроль лишает возможности слушателей самостоятельно формулировать ответы,
отсутствует возможность проявить свою индивидуальность, творчество.
Но
самый большой недостаток – это сложность разработки хороших тестовых заданий,
хотя на первый взгляд кажется, что с этим никаких трудностей быть не должно,
ведь тестовые задания разрабатываются преподавателями, хорошо знающими свой
предмет. На самом деле разработка педагогических тестов требует высокой
педагогической квалификации, научной компетенции и большого методического опыта
составления тестов преподавателем. В этой связи необходимо самое пристальное
внимание уделять повышению качества тестовых заданий.
При проведении тестирования учитываются три
критерия качества теста: надежность, валидность и объективность.
Надежность теста – критерий отражающий точность диагностических
измерений, а также устойчивость результатов теста к действию посторонних
случайных факторов. Надежность педагогического теста позволяет при его
применении в разных группах обучающихся с близким уровнем подготовки получать
примерно одинаковые результаты. Результат педагогического тестирования обычно
подвержен влиянию большого количества неучитываемых факторов (например,
эмоционального состояния и утомления, уровня мотивированности тестируемых и
др.). Любое изменение ситуации тестирования усиливает влияние одних и ослабляет
воздействие других факторов на результат теста.
В самом широком смысле надежность педагогического
теста – это характеристика того, в какой степени выявленные у слушателей
различия в уровне знаний по тестовым результатам являются отражением
действительных различий в измеряемых свойствах и в какой мере они могут быть
приписаны случайным ошибкам.
В более узком смысле, связанном с непосредственными
методами определения характеристик надежности, под этой группой показателей
понимают степень согласованности результатов теста, получаемых при первичном и
повторном его применении, по отношению к тем же тестируемым в различные моменты
времени, с использованием разных (но сопоставимых по характеру) наборов
тестовых заданий или при других измененных условиях тестирования.
Важнейшим средством повышения надежности
педагогических тестов является стандартизация процедуры тестирования.
При строгой регламентации процедуры тестирования (обстановка и условия работы
слушателей, характер инструкции, временные ограничения, способы и особенности
контакта со слушателями, порядок предъявления тестовых задач и т.д.)
существенно уменьшается дисперсия ошибки и повышается надежность теста. При
прочих равных условиях надежность теста зависит от числа заданий (длины теста)
– чем длиннее тест, тем он надежнее.
Валидность теста – это критерий, который определяет, что тест
измеряет и насколько хорошо он это делает. В понятии валидности отражается идея
соответствия педагогического тестирования его цели. Интуитивно все понимают,
что одно и то же можно проверять по разному. Отсюда возникает вопрос поиска
наиболее подходящего (валидного) средства, полнее, чем другие, удовлетворяющего
требованиям качества проверки.
В педагогических тестах наиболее важным типом
валидности является валидность по содержанию. При проверке
содержательной валидности речь идет об определении степени соответствия
содержания тестовых заданий содержанию учебного предмета, успешность усвоения
которого тестируется, то есть решается вопрос о том, в какой степени задачи
данного диагностического контроля успеваемости репрезентативны для содержания
учебной программы.
Для обеспечения валидности педагогического теста
требу-ется систематическая проверка того, насколько задания теста охватывают
все главные аспекты учебной программы и в правильной пропорции. Тест легко
перенасытить теми аспектами учебной программы, по которым легче составить
объективные задания. Поэтому рассматриваемое содержание следует фиксировать
заранее, а не после того как тест уже составлен. Правильно построенные
педагогические тесты должны соответствовать не только предмету обучения, но и
его задачам. Содержание, следовательно, необходимо определять достаточно
широко, включая в него помимо знания фактического материала такие важнейшие
цели обучения, как применение изученных принципов и интерпретацию данных.
Валидность также обеспечивается распределением тестовых заданий различной трудности
пропорционально уровню трудности учебного материала.
Валидность по содержанию закладывается в тест уже при
отборе соответствующих заданий. Для педагогических тестов подготовке их заданий предшествует
полная систематизированная проверка соответствующих учебников и учебных
программ, а также консультации со специалистами по данному предмету. На основе собранной таким путем информации
составляется спецификация теста для тех, кто будет составлять задания. В
спецификации указываются тестируемые области содержания (темы), задачи
(процессы) обучения, а также относительное значение каждой темы и процесса. На
этой основе по каждой теме устанавливается число заданий различных типов.
(Более подробно вопрос составления спецификации будет рассмотрен ниже).
Надежным средством обеспечения валидности теста
является экспертная оценка тестовых материалов, которая проводится экспертами
из числа наиболее квалифицированных специалистов-предметников и специалистов в
области тестирования. Конкретные задания оцениваются экспертами по принципу их
близости к реальным требованиям. Эксперты выносят суждение о том, охватывает ли
тест репрезентативную выборку конкретных навыков и знаний исследуемой области
обучения.
Валидность по содержанию является адекватным средством
оценки педагогических тестов. Она позволяет установить, охватывает ли тест
репрезентативную выборку конкретных навыков и знаний и свободно ли выполнение
теста от влияния посторонних факторов.
Следующий важный критерий качества педагогического
тестирования — объективность, то есть независимость получения и
интерпретации диагностических данных от преподавателя. Объективность
педагогического тестирования является важным синтезирующим критерием,
включающим в себя идеи надежности, валидности, кроме того, ряд аспектов педагогического
и этического характера.
Педагогический аспект повышения объективности
педагогического тестирования проявляется в использовании стандартных тестовых
программ, технических средств контроля, в первую очередь использование
компьютерных технологий в организации проведения педагогического тестирования.
Этический аспект объективности охватывает широкую
область морального регулирования. Результаты педагогического теста могут
оказаться полностью или частично неадекватными поставленной цели, если допускается
списывание, подсказки со стороны слушателей, репетиторство (но не всякое, а
«натаскивание»), снисходительность или, наоборот, чрезмерная требовательность
преподавателей.
Таким образом, результаты педагогического теста
зависят от соблюдения всех вышеназванных требований, которые обеспечивают
получение адекватных и достоверных оценок знаний слушателей.
2.
Этапы составления и общие требования к разработке теста
В данном разделе представлены
основные этапы составления теста.
В разработке педагогических тестов можно выделить три
этапа: планирование, написание заданий и анализ заданий (см. Рис.1).
Перед разработкой теста необходимо четко иметь
представление о требованиях к знаниями, навыкам и умениям обучающихся по данной
учебной дисциплине. Эти требования определены в соответствующих Государственных
образовательных стандартах, предметных квалификационных характеристиках и
типовых учебных программах. Первый шаг в планировании теста – это анализ данных
документов. Задания теста должны в полной мере выявить степень овладения
требуемыми знаниями, навыками и умениями.
Составитель теста, начинающий с написания задания,
скорее всего, создаст узконаправленный тест. Без предварительного плана
некоторые темы изучаемого предмета могут занять слишком много места, в то время
как другие останутся незатронутыми.
Рисунок 1 . Этапы разработки теста
Во избежание несбалансированности и диспропорции
охватываемых тестом тем составлению заданий должна предшествовать разработка
его спецификации.
Спецификация теста является обязательной операцией
эмпирического анализа теста и необходимым условием создания нового теста.
Спецификация заключается в том, что строится таблица, в которой указываются:
·
номера заданий и их
принадлежность к субтестам;
·
направленность заданий;
·
сложность, трудоемкость,
вес заданий;
·
какую из характеристик
каждое из заданий конкретно диагностирует.
При подготовке тестов подобную спецификацию следует
начать с описания целей изучения данного предмета, а также охватываемого этим
предметом содержания. Перечисляя цели, создатель теста должен спросить себя, к
каким изменениям в поведении ведет освоение изучаемого предмета: скажется ли
оно на привычных способах работы, на способе решения задач, на способностях,
интересах и других характеристиках, а также на приобретении и развитии
интеллектуальных навыков.
В табл.1 приведена спецификация теста по дисциплине «Зоогигиена
с основами проектирования животноводческих объектов», состоящего из 116 заданий.
В левой колонке перечислены 11 тем, или содержательных категорий, которые
должны быть охвачены тестом. В верхней части таблицы приведены также 4
тестируемые учебные цели или типа обучения. Вся таблица дает предоставление о
желательном числе заданий относительно содержания и целей обучения. Число
заданий соответствует важности и широте каждой темы и целям ее изучения. Если
конкретная цель или тип обучения данной темой не затрагиваются, то задание в
соответствующей клетке таблицы отсутствует. В вертикальных и горизонтальных
рядах таблицы представлены относительный вес каждой темы и цели обучения во
всем тесте. Часто эти веса устанавливаются заранее, что позволяет
проконтролировать охват заданием тем и целей обучения, не устанавливая сквозную
классификацию индивидуальных заданий.
Таблица 1
Пример спецификации теста по дисциплине
«Зоогигиена с основами проектирования
животноводческих объектов»
Изучаемое содержание |
Учебные цели |
Всего |
|||
Знание основных терминов |
Понимание целей и принципов |
Навыки по мониторингу и оценке |
Расчет и управление параметрами |
||
1.Предмет и задачи гигиены и зоогигиены, как раздела медицины и |
3 |
2 |
— |
— |
5 |
2.Факторы природно- территориального комплекса и их влияние на |
5 |
4 |
3 |
— |
12 |
3.Зоогигиенические требования к почве и санитарная охрана её от |
4 |
4 |
4 |
— |
12 |
4.Зоогигиеническое значение воды. Гигиена водоснабжения и поения |
3 |
3 |
3 |
3 |
12 |
5.Гигиенические требования к кормам и кормлению с. х. животных |
4 |
2 |
2 |
2 |
10 |
6.Требования к санитарно- техническому оборудованию животноводческих |
4 |
2 |
2 |
2 |
10 |
7.Гигиена содержания крупного рогатого скота |
5 |
5 |
3 |
2 |
15 |
8.Гигиена содержания свиней и птицы |
3 |
3 |
2 |
2 |
10 |
9.Гигиена содержания овец |
3 |
3 |
2 |
2 |
10 |
10.Гигиена содержания лошадей |
3 |
3 |
2 |
2 |
10 |
11.Гигиена содержания кроликов и пушных зверей |
3 |
3 |
2 |
2 |
10 |
ИТОГО |
40 |
34 |
25 |
17 |
116 |
Исходным моментом составления
тестовых заданий является выделение общей цели, преследуемой тестовым заданием.
Такие цели должны предусматривать требование от обучаемого:
а) простого воспроизведения знаний, анализа и
сравнения данных. Постановка таких вопросов в заданиях позволяет проверить
усвоение слушателями материала на уровне запоминания, тренирует память;
б) анализа признаков понятия. При этом выявляется
умение обучаемых находить общее и специфическое в изучаемом материале, отделять
существенные признаки от несущественных, родовые от видовых, способствует
развитию аналитического мышления;
в) умения распознавать схемы, рисунки;
г) понимания функций, выполняемых различными органами
(звеньями, приборами, устройствами и т.п.), и процессов взаимодействия между
этими органами. Вопросы такого типа позволяют проверить умение слушателя
вскрывать определенные причинно-следственные связи и отношения, оценивать роль
и значение данного органа для процессов, происходящих во всей системе;
д) приведения в логическую последовательность
элементов множества, расположенных в беспорядке, т.е. умения решать
определенного класса задачи, требующие обнаружить последовательность
расположения элементов в информационном ряде объектов, тактических приемов,
например, в следственном действии либо оперативно-розыскном мероприятии;
е) творческого подхода к рассматриваемым проблемам и
вопросам, умения применять полученные знания в условиях той или иной ситуации.
При создании
тестов для проверки остаточных знаний на основании ФГОС ВПО по соответствующей
дисциплине или для проверки итоговых знаний студента на основании программы
дисциплины прежде всего определяется область содержания теста и цели
тестирования. План теста для промежуточного контроля знаний должен охватывать
знания, умения и навыки по одной или нескольким дидактическим единицам, для
итоговой аттестации – по всем дидактическим единицам дисциплины в соответствии
с программой дисциплины, для проверки остаточных знаний по всем дидактическим
единицам дисциплины в соответствии с ФГОСом по специальности.
Преподавателю следует ориентироваться на следующие
принципы отбора содержания тестовых заданий для тестов:
1. Содержание теста должно
соответствовать содержанию учебной дисциплины. Задания теста должны в
правильной пропорции охватывать все важные аспекты области содержания.
2. Необходимо включение в
тесты только наиболее важных, базовых знаний, выражающих сущность, содержание,
законы и закономерности рассматриваемых явлений. Все спорные точки зрения,
допустимые в научном споре, следует исключить из тестовых заданий.
3. Каждый учебный элемент
должен иметь некоторую усредненную меру трудности, которую необходимо учитывать
в процессе контроля знаний.
Эксперты,
определенные на кафедре, оценивают соответствие заданий области содержания и
целям тестирования. Проводится внутреннее пробное тестирование преподавателями
кафедры. Осуществляется предварительная корректировка теста. Определяется время
тестирования студентов. Рекомендуемая продолжительность ответа на тестовое
задание составляет 1,5 минуты.
На основании анализа
статистических параметров по каждому заданию и тесту в целом производится
повторная корректировка теста – удаляются неудачные задания, если необходимо —
составляются новые.
Производится выбор
стандартов оценивания экспертными и эмпирическими методами. Выполняется оценка
надежности теста и содержательной валидности (соответствия заданий содержанию
дидактических единиц). Составляется окончательный вариант теста и его
параллельных форм. Тиражируется сам тест и связанный с ним материал (если
используется бумажный вариант тестирования). При подготовке теста к
компьютерному тестированию готовится бумажный и электронный вариант теста и
заносится в тестовую оболочку программистом компьютерного класса.
Виды
тестовых заданий
Существует ряд требований к тесту организационного
характера:
- тестирование осуществляется главным образом через
программированный контроль, никому не дается преимуществ, все отвечают на
одни и те же вопросы в одних и тех же условиях; - оценка результатов производится по ранее
разработанной шкале;
·
применяются необходимые меры, предотвращающие искажение результатов
(списывание, подсказку и утечку информации о содержании тестов)
При разработке теста целесообразно
использовать различные виды тестовых заданий. В частности:
·
Задания с выбором одного правильного ответа (ВО)
·
Задания с выбором нескольких правильных ответов (МВ)
·
Задания на установление правильной последовательности (УП)
·
Задания на установление соответствия (УС)
·
Задания с кратким ответом (КО)
Общие требования к
тестовым заданиям разного типа
·
Текст задания должен исключать всякую двусмысленность и неясность
формулировок.
·
Текст задания формулируется предельно кратко, т.е.
освобождается от всякого постороннего для данной
проблемы материала. Текст задания должен иметь предельно простую синтаксическую
конструкцию.
·
В задании не используются слова, вызывающие различное
понимание у испытуемых, а также слова, являющиеся
подсказкой, например, «иногда», «часто», «всегда», «все», «никогда».
·
В заданиях, носящих составной характер, необходимо обеспечить
такую последовательность, чтобы правильность выполнения одного
задания не зависела от правильности выполнения другого задания данной группы.
·
В тексте задания исключается двойное отрицание.
·
Задания должны быть направлены на проверку значимых элементов
содержания, а не тех, которые проще формулируются или просты в обработке.
·
Используемая в заданиях терминология не должна выходить за
рамки учебной литературы, используемой в вузе
Требования
к дистракторам :
·
По возможности, не следует делать ответы длинными;
·
Одно и то же слово (или словосочетание, или однокоренное
слово) не должно находиться в тексте задания и правильном ответе;
·
Все ответы должны быть подобными (аналогичными, похожими),
это касается и их внешнего вида, и грамматической структуры.
·
В вариантах ответа на задания желательна краткость;
·
Ответы на основу задания должны быть сформулированы
достаточно просто, чтобы были понятны существенные различия между ними;
·
Каждый дистрактор должен быть правдоподобным, внушающим
доверие, вполне убедительным и привлекательным для экзаменующихся;
·
Правильный ответ должен быть ясен, краток, правилен и
свободен от подсказок (как внутри текста задания, так и вне его);
·
Ответы должны быть одинаковы по длине (хотя бы
приблизительно), не следует формулировать правильный ответ заметно длиннее или
короче, чем дистракторы;
·
В дистракторах не следует использовать слова или технические
термины, которые экзаменующийся не может или не должен знать;
·
При формулировке дистракторов не следует использовать
выражения: «ни один из перечисленных», «все перечисленные» и т.д., так как они
способствуют угадыванию правильного ответа;
·
Из дистракторов, как правило, исключаются все повторяющиеся
слова путем ввода их в основной текст задания;
·
Все ответы должны быть грамматически согласованными с
основной частью задания;
·
Если ответ выражен в виде числа, то, как правило, эти числа
располагаются от меньшего к большему или наоборот.
Далее представлены требования к содержанию тестовых заданий
разного типа.
Задания
с выбором одного верного ответа (ВО)
Общие
требования
— Формулировка основной части задания, должна быть
законченной
— В заданиях базового уровня в ответы целесообразно включать
не более двух-трех важных, ключевых слов, при этом правильный ответ не должен
отличатся какими-либо формальными признаками от неправильных ответов
(дистракторов).
— В заданиях базового уровня не должно требоваться выбрать
один НЕПРАВИЛЬНЫЙ ответ при наличии нескольких правильных.
— Из текста задания исключаются все словесные ассоциации,
способствующие выбору правильного ответа с помощью догадки.
— Если имеется задание с отрицаниями, то частицу НЕ или
слово, выражающее отрицание, необходимо выделить в тексте (жирным текстом с
подчеркиванием).
— Задания должны иметь одинаково правдоподобные дистракторы
(ответы), одинаково привлекательные для выбора.
— Исключаются ответы, вытекающие один из другого или
дополняющие друг друга.
Задания с выбором одного
верного ответа (ВО)
Примеры заданий:
Функция живого вещества, связанная с преобразованием
физико-химических параметров среды, называется …
A.
средообразующей
B.
транспортной
C.
деструктивной
D.
концентрационной
Различные типы заданий с
выбором ответа
Примеры заданий ВО
в повествовательной форме ( в виде суждений)
Аппаратом
сухой, инерционной очистки газов от пыли является…
1)
циклон
2)
скруббер
3)
волокнистый фильтр
4)
электрофильтр
Регулярное
наблюдение и контроль за состоянием окружающей среды;
определение
изменений, вызванных антропогенным воздействием,
называется
экологическим …
1)
мониторингом
2)
аудитом
3)
страхованием
4)
нормированием
Задания на отрицание
В архейскую эру НЕ существовало…
A. беспозвоночных
животных
B. цианей
C. анаэробных
бактерий
D. одноклеточных
водорослей
Примеры заданий с
рисунком
Об экологической чистоте
товара и о безопасности его для человека и окружающей среды указывает знак
экологический маркировки…
На представленном рисунке
показана схема…
1)оборотного
водоснабжения ГЭС
2) очистки газовых выбросов ТЭС
3) работы АЭС
4) очистных
сооружений ЦБК
Примеры заданий
формы множественный выбор «два из пяти»
(МВ):
К цветковым растениям относятся…
A. одуванчик
лекарственный
B. рябина
обыкновенная
C. ель
европейская
D. сосна
обыкновенная
E. плаун
булавовидный
Примеры
заданий формы множественный выбор «три
из шести»(МВ):
В.И.
Вернадский выделял такие виды веществ в биосфере, как…
1)
живое
2)
косное
3)
биоксное
4)
твердое
5)
мертвое
6)
автотрофное
Пример задания
формы установление последовательности (УП):
Расположите биоценозы в
той последовательности, в которой они сменяют друг друга в процессе сукцессии…
1)
пожарище
2)
кустарник
3)
смешанный лес
4)
ельник
Установите правильный порядок действий при выделении
хлоропластов методом центрифугирования…
1)
поставить центрифужные пробирки в центрифугу
2)
измельчить лист растения ножницами
3)
растереть растительную навеску в ступке при помощи пестика
4)
уравновесить центрифужные пробирки
5)
включить центрифугу на определенное время и определенное количество оборотов
Задания
на установление соответствия (УС)
Общие
требования
Задания
контролируют умение установить соответствие между объектами или процессами
и описанием их свойств и признаков. Задания на установление
однозначного или множественного соответствия начинаются
со слов: «Установите соответствие…».
Задание
формулируется так, чтобы содержание можно было выразить в виде двух
множеств с соответствующими названиями. Элементы первого
столбца обозначаются цифрами и располагаются слева, а элементы
второго обозначаются буквами русского алфавита и располагаются справа. Для
каждого столбца вводится определенное название, обобщающее все элементы
столбца. Название столбца записывается заглавными буквами. Элементы
столбцов должны быть выбраны по одному основанию.Для заданий на однозначное
соответствие необходимо, чтобы второй столбец содержал
не менее одного дистрактора.
Для
всех учебных предметов используется одинаковый формат ответов, представленный
ниже.
Пример задания
формы УС:
Установите соответствие
между группами растений по отношению к свету и признаками растений:
ПРИЗНАКИ |
ЭКОЛОГИЧЕСКИЕ ГРУППЫ РАСТЕНИЙ |
1) |
А) |
2) |
Б) |
3) |
|
4)Не |
|
5) |
|
6) |
Задания
открытой формы
Общие
требования
В заданиях открытой формы
не используются готовые варианты ответов. В них испытуемому нужно дополнить
недостающее слово (группу слов, формулу, число, знак и др.), которое
свидетельствует о его знании.
Существует большое
разнообразие типов заданий в открытой форме.
Задания открытой формы подразделяются на задания с
коротким ответом и задания с развернутым ответом или эссе.
В практике массового педагогического тестирования в
основном применяются следующие модификации заданий открытой формы:
· задания
с коротким ответом (КО);
· задания
на завершение утверждения (ЗУ);
· задания
на заполнение пробела (ЗП);
· задания
на завершение (или на конструирование) графического объекта (диаграммы,
графика, схемы).
Примеры
заданий формы КО:
1). Если ПДК нитратов для
человека составляет 3,05 мг/кг в сутки, то для человека массой 68 кг допустимо
поступление в организм этих веществ до ___ мг.
Ответ: 207
2). Если норматив платы
за выброс 1 тонны фенола в атмосферу в пределах установленных лимитов
составляет 3,415 тыс. руб., то при выбросе предприятием 22 тонн данного
загрязняющего вещества, выплаты составят ______ тыс. рублей.
Ответ: 75
Задания на завершение утверждения
Представленный ниже график иллюстрирует
закон _________________.
Изображенная на рисунке модель
иллюстрирует закон _______.
Типичные
ошибки, допускаемые при
составлении
вопросов к тесту
При составлении тестовых
заданий разработчикам следует не только придерживаться определенных правил к
формулировке заданий, правильных ответов и дистракторов, но и избегать
основных, наиболее типичных неточностей и ошибок при их написании. Наиболее
часто встречаются следующие нарушения требований и определенных критериев при
написании тестовых заданий.
Следует избегать составлять
задания, которые проверяют
больше чем одну идею, проблему, концепцию. При этом в правильном ответе и
дистракторах не должно содержаться разное количество элементов ответа:
Важнейшими экологическими
последствиями глобального загрязнения атмосферы являются …
1) кислотные
осадки и парниковый эффект
2)
демографические параметры
3)
извержения вулканов
4)
естественные сукцессии
В
правильном ответе и дистракторах содержится разное количество элементов
ответа:
В ходе световой фазы фотосинтеза
происходит…
1) фотолиз воды и выделение свободного кислорода
2)
фиксация углекислого газа
3)
использование энергии АТФ
4)
синтез глюкозы
К
липидам относятся…
1) стероиды, терпены, воска и фосфолипиды
2)
только стероиды
3)
только терпены
4)
только фосфолипиды
Из
дистракторов, как правило, исключаются все повторяющиеся
слова путем ввода их в основной текст задания, например:
Неправильно |
Правильно |
Области 1) 2) 3) 4) |
Области концентрации живого вещества на 1) 2) 3) 4) |
Часть
ответа лучше вынести в вопрос, например:
Неправильно |
Правильно |
Для изучения тонкой структуры клеточных 1) 2) 3) 4) |
Для изучения тонкой структуры клеточных наиболее 1) 2) 3) 4) |
Все
ответы должны быть грамматически согласованными
с основной частью задания. Например, наблюдается несоответствие родов или
падежей:
Круговорот веществ, движущей силой
которого является деятельность живых организмов, называется …
1) биологическим
2) большой
3) геологический
4) антропогенным
Не
все иностранные фамилии можно склонять по падежам.
Неправильно |
Правильно |
Роль 1) 2) 3) 4) |
Роль микроорганизмов в питании растений 1) 2) 3) 4) |
Все
ответы должны быть грамматически согласованными
с основной частью задания. Например, может наблюдаться несоответствие чисел
(единственное и множественное):
Неправильно |
Правильно |
Пространство, на 1) ареалом 2) площадью 3) зонами 4) территориями |
Пространство, на 1) ареалом 2) площадью 3) зонами 4) территориями |
Не
допускается использование словосочетаний: ни один из перечисленных выше; все
перечисленные; все, кроме…
Основные способы приспособления организмов
к условиям
окружающей
среды –это …
1)
активный путь, пассивный путь, избегание неблагоприятных воздействий
2) все перечисленные, кроме активного пути
3) только активный путь
4) ни один из перечисленных вариантов ответа не верен
Ответы
должны быть одинаковы по длине (хотя бы приблизительно),
не следует формулировать правильный ответ заметно длиннее или короче, чем
дистракторы. Следовательно, правильный ответ не должен отличаться внешне по
длине от дистракторов:
Для защиты атмосферы от загрязнения
проводят …
1) очистку выбросов предприятий от вредных примесей с помощью
газоулавливающих средств
2)
интродукцию растений
3)
рекультивацию земель
4)
мелиоративные мероприятия
Не
следует в качестве дистракторов приводить понятия, явно
не имеющие отношения к предмету тестирования:
Для физико-химической очистки сточных вод
используют …
1)
адсорбер
2) автобус
3) автомат
4) аттестацию
Не
следует разрабатывать тестовые задания на несоответствие
современным научным достижениям или использовать устаревшую информацию:
В
настоящее время количество населения на планете составляет ________ человек.
1)
5 млрд.
2) 3 млрд.
3) 500 млн.
4)100 млн.
Не следует формулировать
задание в виде вопроса:
Неправильно |
Правильно |
Что содержится в файле с расширением obj?
|
Файл с расширением obj
|
Внутренняя
экспертиза теста
Каждому эксперту выдаются следующие материалы:
- Спецификация и план теста
- Инструкция по экспертизе
- Формы для заключения об экспертизе и записи
решений
В процессе экспертизы проводится следующая работа:
- Выполняется каждое задание теста (указывается
правильный ответ, приводится решение задания, где необходимо) - Анализируются формулировки задания (проверяется
предметная корректность формулировок) - Анализируется содержание заданий на их
тематическую принадлежность и уровень сложности (базовый, повышенный или
высокий) - Формулируются замечания каждому из заданий, в
конструктивной форме с предложениями, что и как необходимо изменить. - Формулируется заключение о пригодности теста для
использования
Спецификация теста включает:
- Цель создания теста, обоснование выбора подхода к
его созданию, описание возможных сфер его применения. - Перечень нормативных документов (базисных
программ, требований к уровню подготовки выпускников и др.), используемых
при планировании содержания теста. - Количество заданий различной формы с указанием
числа ответов к закрытым заданиям, общее число заданий в тесте. - Вес каждого задания, рекомендуемый автором теста.
- Рекомендуемое время выполнения теста, среднее
время выполнения одного задания с учетом специфики формы. - Охват требований государственных образовательных
стандартов по дисциплине.
Требования к экспертной комиссии и
процедуре экспертизы качества теста
- Оценка качества содержания теста проводится
независимыми экспертами, не участвовавшими в разработке теста. Число
экспертов составляет не менее 3-х человек — наиболее опытные
преподаватели, с большим стажем работы. - В комплект материалов для экспертизы должен
входить перечень требований к уровню подготовки испытуемых. - Эксперту при работе потребуются часы для фиксации
времени работы над каждым заданием и бланк для экспертного заключения. - Если задание теста проверяет степень достижения
требований на минимальном уровне — это базовое задание, на уровне
«хорошей» оценки – задание повышенного уровня, «отличной» оценки – сложное
задание. - Эксперт должен оценить значимость содержания
теста по следующей шкале – 0 – неоправданное включение задания в тест, 1 –
незначимое задание, 2 – значимое, 3 – наиболее важный опорный элемент.
Оформление
тестового материала и подготовка его
к
компьютерному варианту тестирования
План теста
При разработке плана тестовых
заданий по дисциплине делается примерная раскладка процентного содержания
разделов и определяется необходимое число заданий (но не менее 3-х) по каждому
разделу дисциплины (по каждой дидактической единице) исходя из его важности и
числа часов, отведенных на его изучение в программе.
Требования к оформлению
тестовых материалов
N |
Наименование |
N |
Тема |
1 |
Общая теория права и государства |
1 |
Понятие и признаки права. Система |
2 |
Источники и формы права. Норма |
||
3 |
Правоотношения. Правонарушение и |
||
4 |
Российское право и основные |
||
2 |
Основы конституционного права |
5 |
Конституция Российской Федерации |
6 |
Основы конституционного строя |
||
7 |
Правовой статус личности в |
||
8 |
Органы государственной власти в |
||
3 |
Основы гражданского права |
9 |
Граждане и юридические лица как |
10 |
Право собственности |
||
11 |
Обязательства и договоры |
||
12 |
Наследственное право Российской |
||
4 |
Основы трудового права Российской |
13 |
Основания возникновения трудовых |
14 |
Рабочее время и время отдыха |
||
15 |
Дисциплина труда |
||
16 |
Защита трудовых прав граждан |
||
5 |
Административное правонарушение и |
17 |
Административное правонарушение и |
18 |
Преступление. Уголовный закон и |
||
19 |
Категории и виды преступлений. |
||
20 |
Система наказаний по уголовному |
Бумажная копия теста должна
быть обязательно подписана автором (авторами) тестового материала с указанием
даты составления и передачи, листы скреплены и пронумерованы.
Особенностью
современного образовательного процесса в вузе является его компьютеризация,
что позволяет организовывать тестирование обучающихся на компьютерной основе.
«Компьютерные»
педагогические тесты имеют свои особенности, которые необходимо учитывать при
их разработке. Анализ информации на экране монитора компьютера часто бывает
затруднен из-за неправильной подачи материала. Хотя именно компьютеризованное
тестирование имеет свои преимущества и перспективы применения в образовании.
Особенная роль здесь принадлежит компьютерно-индивидуальному тестированию,
когда каждому испытуемому предъявляется уникальный набор заданий.
Возможности компьютерных
средств позволяют сочетать звуковые и зрительные формы предъявления тестовых
заданий. Компьютерные тесты должны быть адаптированы к реальному учебному
процессу. Одно из главных требований к компьютерным тестам — многовариантность.
Многовариантность должна быть двух типов: во-первых, по данным заданий,
во-вторых, по порядку их предъявления. Реализация этого требования снимает
сразу две организационные проблемы: списывание и запоминание ответов.
Достоинства компьютерного
тестирования:
— объективность тестирования
– персональный компьютер «беспристрастен» при предъявлении тестовых заданий и
подсчете результатов их выполнения.
— удобство фиксации,
хранения и представления результатов тестирования, а также возможность их
автоматизированной обработки, включая ведение баз данных и статистический
анализ.
— удобство реализации
процедур индивидуально-ориентированного тестирования.
— возможность создания
таких тестовых заданий, которые не могут быть представлены без компьютера. При
этом могут быть использованы графические, динамические, интерактивные и другие
специфические возможности представления тестовых заданий на компьютере.
Недостаток компьютерного
тестирования:
— необходимость минимальных
навыков работы на компьютере тестируемого.
В вузах существуют тестовые
оболочки, куда заносятся вопросы и варианты ответов тестовых заданий (например «iTest», «Му test» и др.). При подготовке компьютерного
тестирования следует учитывать следующую (рекомендуемую) схему взаимодействия
подразделений вуза (см. рис. 2).
Рисунок 2. Схема взаимодействия подразделений
в разработке и реализации
компьютерного теста
Сектор качества
образования УМЦ обеспечивает централизованное и конфиденциальное хранение
тестовых заданий по учебным дисциплинам.
При оценке выполнения
теста следует исходить из следующих рекомендаций:
- Оценка «удовлетворительно»
ставится, если студент ответил на от 55 до 70% вопросов. - Оценка «хорошо» ставится, если
студент получил от 71 до 85%. - Оценка «отлично» ставится,
если студент получил 86% и более правильных ответов.
Список рекомендуемой литературы
1. Аванесов, В.С.
Композиция тестовых заданий/ В.С. Аванесов. – М.: АДЕПТ, 1998. – 216 с.
2. Воскресенская,
О.Л.
Оценка
качества подготовки студентов по дисциплине «Физиология растений» на основе
результатов Интернет-экзамена/ О.Л. Воскресенская, Г.П. Тикина /Материалы
Всероссийской конференции «Преподавание современной физиологии растений в
университетах и вузах страны: проблемы и решения». – М., 2008.
3. Геворкян,
Е.Н., Комплексная
оценка высших учебных заведений/ Е.Н. Геворкян, В.Г. Наводнов, Г.Н.Мотова,
М.В.Петропавловский. — М.: Центр государственной аккредитации, 2003. — 176 с.
4. Ефремова, Н.Ф.
Современные тестовые технологии в образовании/ Н.Ф. Ефремова. – Ростов-на-Дону:
Издательский центр ДГТУ, 2001. – 187 c.
5. Киселева,
В.П. Методика
определения уровня подготовки студентов по результатам аттестационных
педагогических измерений/ В.П. Киселева, А.С. Масленников, В.Г. Наводнов. – Йошкар-Ола:
Центр государственной аккредитации, 2004. — 44 с.
6. Клайн, П.
Справочное руководство по конструированию тестов/ П. Клайн. – Киев, 1994. – 238
с.
7. Майоров,
А.Н.
Теория и практика создания тестов для системы образования. / А.Н.Майоров. – М:
Народное образование, 2000. – 351 с.
8. Масленников,
А.С. Оценка
уровня обученности студентов в целях аттестации образовательного учреждения
профессионального образования: Учебное пособие/А.С. Масленников, Б.А. Савельев. – М.:
Логос, 2003. – 136 с.
9. Мельников, Ю.В.
Технология использования и разработки тестов и обучающих программ: Методическое
пособие / Ю.В.Мельников. – Домодедово: ВИПК МВД России, 1999. – 21 с.
10. Михайлычев, Е.А.
Дидактическая тестология / Е.А. Михайлычев. – М.: Народное образование, 2001. –
432 с.
11. Морев, И. А.
Образовательные информационные технологии. Часть 2. Педагогические измерения:
Учебное пособие/ И.А. Морев. – Владивосток: Изд-во Дальневост. ун-та, 2004. –
174 с.
12. Переверзев, В.Ю.
Критериально-ориентированное педагогическое тестирование: Учеб. Пособие/ В.Ю.
Переверзев. – М.: Логос, 2003. –120 с.
13. Родионов, Б.У. Стандарты
и тесты в образовании / Б.У. Родионов, А.О.Татур. – М.: Б.и., 1995. – 48 с.
14. Челышкова, М.Б. Теория и
практика конструирования педагогических тестов: Учебное пособие/ М.Б.
Челышкова. – М.: Исследовательский центр проблем качества подготовки специалистов,
2001. – 410 с.
Приложение 1
Классификация тестов
1.
По процедуре создания:
· стандартизованные (в образовании, для целей итоговой аттестации);
· не стандартизованные.
2. По средствам предъявления:
· бланковые;
· предметные (манипулируем материальными объектами);
· аппаратурные (используются устройства для изучения особенностей внимания,
восприятия, памяти, мышления);
· практические (лабораторные работы, снабженные соответствующими инструкциями и
имеющие тестовое оснащение);
· компьютерные.
В
рамках компьютерного тестирования В.С. Аванесов предлагает адаптивные тесты —
задания, в которых предъявляются по одному, в зависимости от ответа испытуемого
на предыдущий вопрос.
3.
По направленности:
· тесты интеллекта;
· личностные тесты;
· тесты достижений.
4. По характеру действий:
· вербальные (с использованием умственных действий);
· невербальные (связанные с практическим манипулированием предметов).
5. По ведущей ориентации:
· тесты скорости (содержат простые задачи; время решения ограничено);
· тесты мощности или результативности (содержат трудные задачи, время решения
не ограничено, или мягко лимитировано);
· смешанные тесты (задачи различного уровня сложности, от самых простых до
самых сложных, время испытания ограничено, но достаточно для решения
большинства задач).
Эти тесты наиболее часто применяются на практике, к ним относятся большинство
тестов учебных достижений.
6. По степени однородности задач:
· гомогенные (задачи, сходные по характеру, но различающиеся конкретным
содержанием);
· гетерогенные (задания отличаются и по характеру, и по содержанию).
7. По объективности оценивания:
· объективные (в процессе обработки результатов тестирования не
предусматривается использование субъективных толкований тестирующим);
· проективные тесты (допускается чрезвычайно большое разнообразие ответов и
проявление определенной субъективности при их толковании тестирующим.
8. По специализации:
· широкоориентированные (для тестов в системе образовании), позволяющие оценить
эффективность процесса обучения, степень освоения учащимися системы знаний,
умений и навыков в ходе учебного процесса;
· узкоориентированные, направленные на выявление достижений учащихся в процессе
освоения отдельных предметов, отдельных тем и т.д.
9. По целям использования (только для тестов в системе образования):
· предварительный определяющий тест (определяет знания в начале обучения,
затрагивает минимум знаний по теме обучения);
· тест прогресса, достигнутого в процессе обучения, формирующий тест
(затрагивает ограниченный сегмент обучения, раздел или главу, состоит из серии
отдельных тестовых вопросов, всесторонне охватывающих ограниченную область
обучения). Пример, обучающие тесты. Ученику даются конкретные инструкции для
исправления обнаруженных ошибок;
· диагностический тест (содержит большое число вопросов, имеющих отношение к
конкретной тестируемой области). Цель теста — определение трудностей обучения.
· суммирующий тест (используется для оценки широкого диапазона результатов
обучения, ожидаемого в конце учебного процесса, содержит вопросы,
представляющие более высокий уровень сложности, чем другие виды тестов).
10. По широте использования (только для тестов в системе образования):
· для использования преподавателем;
· для использования группой преподавателей или администрацией образовательного
учреждения;
· для целей отбора и формирования групп;
· для аттестации обучающихся.
11. По форме:
· тесты закрытого типа (задания с выбором верного ответа (или нескольких
верных) из набора предлагаемых;
· тесты открытого типа (ввод предполагаемого ответа на задание самим
тестируемым).
Приложение 2
Образец оформления титульного
листа теста по дисциплине
МИНИСТЕРСТВО ФГОУ ВЕТЕРИНАРНОЙ ТЕСТОВЫЕ ЗАДАНИЯ Для ________________________________________ По дисциплине Для Составлены______________________________________ ФИО,ученая Троицк
|
Образец оформления первого листа
тестовых заданий
Утверждено
на заседании кафедры
Согласовано:
______________________(протокол
№___) Декан
____________________________
Зав.
кафедрой________________ подпись
ФИО подпись
ФИО «_____»________________________20___г.
«_____»______________________20___г.
ОБЩИЕ СВЕДЕНИЯ О ТЕСТОВЫХ ЗАДАНИЯХ
1 Направление (я), специальность(и), курс(ы)
_______________________________________
2 Название цикла дисциплин учебного плана
______________________________________
3
Дисциплина (или дисциплины комплексного задания)
_____________________________
4 Цель
контроля ______________________________________________________________
5 Общее
количество тестовых заданий ____________________________________________
6 Рекомендуемое
количество заданий в тесте ______________________________________
7 Форма (ы)
заданий
—
открытая____________________________________________________________________
— закрытая
( с выбором одного или нескольких заключений)__________________________
— на
установление правильной последовательности__________________________________
— на
установление соответствия___________________________________________________
— на
конструирование и др.______________________________________________________
8 Время, на
которое рассчитан тест_______________________________________________
9 Уровень
сложности:
—
легкие______________________________________________________________________
— средней
трудности____________________________________________________________
—
трудные_____________________________________________________________________
10 Критерии
оценки:
оценка
3 (удовлетворительно) 25-49 баллов ______% правильных ответов
оценка
4 (хорошо) 50-74 баллов ______% правильных ответов
оценка
5 (отлично) 75-100 баллов ______% правильных ответов
11
Кафедра(ы)- разработчик (и) контролирующих материалов ________________________
Тестовые задания и ключи к ним прилагаются