Методическое руководство к тесту включает

Руководство к тесту
составляется для его пользователей —
организаций, специ­альных психологических
служб, профес­сиональных психологов,
педагогов, психи­атров и некоторых
других специалистов. В руководстве,
как правило, излагаются следующие
сведения о тесте:

  1. сведения о процедуре
    разработки (теоретическое и операционное
    определение, сфера применения, данные
    о выборке, на которой проводилась
    стандартизация, анализ пунктов теста,
    валидности и надежности);

  2. требования к применению
    (область распространения теста,
    требования к пользователям, описание
    процедуры проведения, стандарт тестового
    материала);

  3. данные по обработке и
    интерпретации результатов (образцы
    регистрационного бланка и ключей,
    процедура обработки таблицы для
    перевода «сырых» баллов в стандартные
    шкалы (нормы), примеры интерпретации
    результатов).

А. Общие требования к информа­ции,
содержащейся в руководстве.

Пользователи тестов
нуждаются в ин­формации, которая
помогла бы применить тест стандартным
образом и оценить его в сравнении с
другими тестами, которые можно выбрать
для данной цели. Автор теста должен
представить хотя бы частич­ную
информацию, в которой нуждается
пользователь при выборе теста или при
его использовании. Практика авторов и
издателей в представлении информации
разнообразна. По некоторым тестам
пользователю представляются только
нечеткие указания к тестированию и
нормы для оценивания результатов, да
и те неизвестного происхождения.
Наоборот, другие тесты имеют руководства,
в кото­рых представлена обширная и
детальная информация о разработке
теста, его валидности и надежности, а
также нормах, ви­дах интерпретации
результатов и возмож­ных областях
его применения.

А.1.
Когда тест становится доступным для
операционного использования, он дол­жен
сопровождаться руководством, для того
чтобы сделать реальными требова­ния,
которые предъявляются к его приме­нению.
(Существенно.)

Комментарий.
Под термином «операционное пользование»
подразуме­вается принятие практических
решений относительно оценивания
индивидов, групп, учебных предметов,
терапевтичес­кой интерпретации и т.
д.

В зависимости от объема
сообщаемой информации, разнообразия
областей при­менения и пользователей,
термин руко­водство» может означать
документы мо­нографического характера
или серию от­дельных публикаций.
Данный термин мо­жет также
распространяться на процедур­ное
руководство по использованию тестов
или их батарей, например в ситуации
от­бора; словесная формулировка и
значение данных о стандартных требованиях
могут быть иными для процедурных
руководств, однако принципы составления
руковод­ства к тестам аналогичны.

А.1.1.
Если некоторая информация, необходимая
для подтверждения интер­претации
результатов, предложенных в руководстве,
не может быть представлена ко времени
публикации руководства, тре­бование
А.1 может быть удовлетворено подчеркиванием
отсутствия и важности такой информации.
(Существенно.)

А.1.2.
Если информация слишком об­ширна для
сообщения в руководстве, она должна
быть обобщена и сопровождена ссылками
на другие соответствующие ис­точники,
статьи или книги. (Очень
жела­тельно.)

Комментарий.
Некоторые тесты имеют или объемные
технические руко­водства, или включают
соответствующую информацию в справочники
для пользова­телей, которые рекомендуются
для кон­сультации. В других случаях
в руковод­стве дается только
существенная инфор­мация и ссылка
на другие полезные источ­ники.

Публикации других лиц, не
связанных с автором теста, часто
выполняют многие функции руководства
к тесту. Если подоб­ная публикация о
тесте предназначена в качестве
руководства, ее автор и издате­ли
отвечают за тест в той же степени, как
и авторы теста.

А.1.2.1.
Когда информация представ­лена
автором или издателем в отдельной
публикации, эта публикация должна
соот­ветствовать тем же требованиям,
что и руководство, и не содержать
моментов, ве­дущих к ошибкам, так же,
как это требу­ется от руководства.
(Существенно.)

А.1.2.2.
Дополнительный материал к тесту должен
быть точным и полным и не должен давать
повода для ошибочного по­нимания.
(Существенно.)

Комментарий.
В случае, когда публикатор приводит
обширную и исчер­пывающую библиографию
исследований, касающихся теста,
желательно снабдить ее комментариями
аннотациями.

А.1.2.3.
Информационный материал, предназначенный
для пользователя, не являющегося
специалистом в данной об­ласти, должен
быть точным, полностью соответствовать
целям его обращения к данному материалу
и написан языком, не допускающим
ошибочного понимания у читателя.
(Существенно.)

Комментарий.
Такая информа­ция часто дается в виде
краткой памятки. При подготовке такого
краткого сообщения может учитываться
психологическая подготовленность
читателя, но это не по­зволяет
пропускать или искажать суще­ственную
информацию. Если можно наде­яться,
что читатель постоянно имеет дело с
такими сообщениями, необходимо при­ложить
усилия к повышению его способ­ности
понимать детали.

А.2. Тест
и руководство к нему долж­ны периодически
пересматриваться. Вре­мя пересмотра
зависит от изменения условий применения
или от исследова­тельских данных,
ввиду которых некото­рые утверждения
в руководстве к тесту оказываются
неправильными или ведущи­ми к ошибкам.
(Очень желательно.)

Комментарий.
Технические ха­рактеристики и
полезность теста изменя­ются с
изменением социальных условий и
установок, определенных видов труда,
ус­ловий и содержания обучения и
состава соответствующей популяции.

А.2.1.
Перепроверки теста, проведен­ные
после его публикации, вне зависимо­сти
от благоприятности или неблагопри­ятности
для теста, должны быть учтены в
пересмотренных изданиях руководства
или в дополняющих сообщениях. В
руко­водство должны также включаться
данные не только авторов и публикаторов,
но и других исследователей. (Очень
жела­тельно.)

А.2.2.
Когда тест пересмотрен или из­дана
его новая форма, руководство к нему
должно быть соответственно пересмотре­но
с учетом изменений теста. Кроме того,
должны быть ясно указаны природа и
сте­пень пересмотра, сравнимость
данных, полученных по старому и по
пересмотрен­ному тестам. (Существенно.)

Комментарий.
Целесообразно, чтобы издатели указывали
на пересмотры руководств к тесту в
каталогах и прини­мали другие меры
для увеличения вероят­ности того,
что пользователь теста полу­чит
текущую информацию.

А.2.2.1.
Когда на основе хорошо прове­ренного
теста разработана укороченная форма,
в руководстве должны быть пред­ставлены
данные о том, что задания в уко­роченной
форме адекватны заданиям в полной форме
или что укороченная фор­ма измеряет
те же самые характеристики, что и полная
форма. (Очень
желатель­но.)

Комментарий.
Если короткая форма теста не была
разработана, но есть основание полагать,
что обычно тест ис­пользуется в
укороченной форме, в руко­водстве
должно быть напоминание для читателя,
что данные, отраженные в руко­водстве,
не могут быть приложим к ре­зультатам
использования укороченной формы.

А.2.2.2.
Если укороченная форма раз­работана
путем сокращения числа зада­ний или
преобразованием части теста в от­дельную
форму, то укороченный тест дол­жен
пройти психометрическую проверку и ее
данные должны быть приведены в
ру­ководстве. (Существенно.)

Комментарий.
В руководстве к тесту, имеющему две
альтернативные формы, необходимо
представить независи­мые данные для
каждой формы.

А.2.3.
При переводе теста с другого языка и
их адаптации в руководстве еле дует
указать все внесенные в тест изменения
и данные новой психометрической
проверки. (Существенно.)

А.3.
Наименования для публикуемых тестов
и для отдельных частей тестов должны
выбираться так, чтобы обеспечить
минимальный риск ошибок интерпретации
пользователями. (Существенно.)

Комментарий.
Желательно, чтобы наименования не
содержали многозначных терминов в
качестве измерительных характеристик.
Такие наименования как «свободный от
влияния культуры» «интеллект»,
«креативность», «интроверсия», «первичные
умственные способности», «показатель
продуктивности», сомни­тельны для
опубликованных тестов, не со­держащих
необходимых свидетельств их продуктивной
валидности, так как могут предполагать
интерпретации, не вытекаю­щие из
демонстрируемого смысла тесто­вых
оценок.

А.3.1.
Средства идентификации инте­ресов
и свойств личности путем самоотче­та
следует называть не «тесты», а
«опрос­ники», «вопросники», «оценочные
листы», «оценочные шкалы». (Очень
желатель­но.)

Комментарий.
Когда о таких ин­струментах говорится
в руководстве, сло­во «тест» может
использоваться для упро­щения языка
даже в том случае, если оно отсутствует
в наименовании.

А.4. Если
тест предназначен только для
исследовательского пользования и не
может быть распространен для широкого
применения, это должно быть ясно
выра­жено в сопровождающих материалах.
(Существенно.)

Комментарий.
Если психолог, разрабатывающий новый
диагностичес­кий тест, например, для
изучения личнос­ти, передает свой
инструмент для иссле­дований другим
научным работникам до того, как сочтет
тест готовым для опера­ционного
пользования, на обложке руко­водства,
а также в каталоге, где он заре­гистрирован,
следует печатать «Распрос­транение
только для исследовательского
пользования». Это служит предупрежде­нием
против поспешного использования
инструмента.

А.5. В
руководстве должна быть ука­зана
квалификация пользователя. (Суще­ственно.)

Комментарий.
Обычно на об­ложке руководства
ставится обозначение, соответствующее
уровню квалификации пользователя: (А)
— тестом может пользоваться любой
человек; (Б) — пользователь должен
пройти полный курс обучения психодиагностике
и иметь за­конченное высшее гуманитарное
образо­вание; (В) — пользователь
должен иметь опыт в тестировании,
подтвержденный со­ответствующими
документами, и иметь как минимум
законченное высшее психо­логическое
образование или быть членом психологической
ассоциации. При покуп­ке тестов группы
(В) обязательно предос­тавление
квалификационного документа.

Б. Сведения о процедуре разработ­ки
теста.

Ответственность за заключение
о смысле и ограничениях в использовании
тестовых результатов ложится в первую
очередь на пользователя. Однако в этом
случае он частично зависит от доступной
информации о тесте, приводимой его
со­ставителем.

Руководство к тесту не
может полнос­тью подготовить
пользователя к интерпре­тации данного
теста. Ему приходится делать выводы,
не подтвержденные опуб­ликованными
свидетельствами. Так, профориентатор
не может надеяться на на­личие данных
о валидности теста для каж­дого вида
труда, относительно которых он на основе
тестовых оценок делает наибо­лее
надежные предсказания. Специалист по
профконсультации или трудоустрой­ству
может иметь дело с испытуемыми, ко­торые
не могут быть отнесены ни к одной из
групп, для которых имеются норматив­ные
или валидационные данные. Учитель может
оценивать содержание теста дости­жений
соответственно принятым целям и
особенностям обучения, клиницист
дол­жен соотнести общие данные теории
с соб­ственной интерпретацией данных
по оп­роснику личности. Степень, с
которой ру­ководство подготовит
пользователя к точ­ной интерпретации
и эффективному ис­пользованию теста,
зависит от типа теста и способов его
применения. На составите­ля теста
возлагается ответственность за
представление информации, необходимой
для правильных суждений. Он должен
приложить все возможные усилия, чтобы
тест не был неправильно употреблен или
неправильно интерпретирован.

Б.1. В
руководстве к тесту должна быть полностью
описана процедура созда­ния теста:
его концептуальная основа, детали
разработки заданий теста и их от­бора,
психометрическая проверка надеж­ности
и валидности и другие исследова­ния.
(Существенно.)

Б.2. В
руководстве к тесту должны быть ясно
отражены теоретические поло­жения,
на которых основан тест, и подроб­но
раскрыта природа характеристик, для
измерения которых тест предназначен.
(Существенно.)

Комментарий.
Ясное описание диагностируемых
переменных, а также характер измерения
позволяют пользова­телю судить,
насколько тест соответству­ет его
собственному пониманию, а также насколько
статистические данные харак­теризуют
его действенность.

Б.2.1.
Диагностический конструкт (концепт)
должен быть сформулирован в теоретических
понятиях и соотнесен на теоретическом
уровне с системой реле­вантных
конструктов (теоретическое оп­ределение).
(Существенно.)

Б.2.2.
Особое внимание должно быть обращено
на операциональное опреде­ление
диагностического конструкта.
Опе­рациональное определение — это
опре­деление конструкта в эмпирических
кате­гориях, отражающих ситуацию, в
которых он актуализируется, а также
реакции (по­ведение, переживания,
представления), в которых данный
конструкт проявляется. (Существенно.)

Комментарий.
Пользователь те­ста нуждается в
информации, которая по­зволила бы
ему сравнивать собственную концепцию
конструкта с концепцией авто­ра
теста.

Б.3.
Руководство теста должно указать
диагностические цели и сферы приложе­ния,
для которых тест рекомендован.
(Су­щественно.)

Комментарий. Ясное указание
целей теста содействует предупреждению
ошибочного истолкования тестовых
оце­нок. Надо обратить внимание
пользовате­ля на содержание в
руководстве доказа­тельства
предложений, принятых авто­ром.
Например, если тест достижений
рекомендован как тест обследования
зна­ний учащихся, важно точное описание
его содержания. Если, с другой стороны,
он рекомендован как диагностический
тест или тест для выбора вида деятельности,
требуются данные об его связи с одним
или несколькими критериями.

Б.3.1.
Должна быть четко выделена об­ласть
применения, под которой подразу­мевается
особая социальная среда или сфера
общественной практики (производ­ство,
медицина, семейная жизнь и т. п.),
контингент испытуемых (пол, возраст,
об­разование, профессиональный опыт,
на производстве, в обществе). (Сущест­венно.)

Б.3.2. В
руководстве должны быть конкретизированы
цели использования результатов: для
прогноза успешности профессиональной
деятельности, психо­логического
вмешательства, принятия правовых,
судебно-административных ре­шений,
прогноза стабильности коллекти­ва
и т. п. (Очень желательно.)

Б.4.
Руководство к тесту должно отразить
репрезентативность выборки заданий,
процедуру их отбора и психоме­трические
характеристики заданий. (Су­щественно.)

Комментарий.
Для тестов, пред­ставляющих собой
гомогенную, дискриминативную шкалу
или набор таких шкал, процедура отбора
заданий проводится сле­дующим образом:
каждое задание прохо­дит проверку
на трудность и дискриминативность, на
соответствие заданий нор­мальному
распределению и их степень отношения
к одному фактору. Выборка для анализа
должна отражать популяцию и в общем
случае для проверки одной формы теста
состоять как минимум из 100 человек.

Б.4.1.
Данные, собранные в ходе раз­работки
теста (до получения конечной формы),
должны быть отделены от дан­ных,
относящихся к тесту в его конечной
форме. (Существенно.)

Б.5. В
случае если тест не разрабаты­вается
вновь, а переводится с другого язы­ка,
он должен пройти полную психомет­рическую
проверку, так же как вновь раз­рабатываемый
тест. (Существенно.)

Б.5.1.
При переводе руководства к тесту
проверяется эквивалентность
диагностических конструктов и концептов,
лежащих в основе тестовых задач.
(Суще­ственно.)

Стандартные требования
к надеж­ности и валидности.
Составитель
теста должен привести в руководстве
сведения о надежности и валидности
теста. Многие пользователи тестов также
выполняют подобные исследования,
опираясь на соб­ственное применение
тестов. Их научные сообщения часто
отличаются от приведен­ных в руководстве
к тесту как более де­тальные и более
специфические, описыва­ющие более
узкие сферы использования теста.
Несмотря на эти различия, в обоих случаях
стандартные требования для ис­следований
и сообщений по ним должны быть в общем
сходными.

В. Надежность и ошибка измере­ния.

Надежность — характеристика
мето­дики, отражающая точность
психодиаг­ностических измерений, а
также устой­чивость результатов
теста к действию по­сторонних случайных
факторов.

В основе анализа надежности
теста лежит представление об истинных
оценках и ошибках измерения. Распределение
оценок, полученных на генеральной
сово­купности при выполнении теста,
изме­ряющего одну характеристику,
теорети­чески должно подчиняться
нормальному закону. Поэтому при
разработке теста ис­следователю
необходимо отбирать зада­ния таким
образом, чтобы распределение реальных
тестовых оценок было по воз­можности
близко к нормальному.

Для определения ошибки
измерения используются на практике
корреляцион­ные методы, позволяющие
определить надежность через устойчивость
и согла­сованность результатов.
Классические методы оценки коэффициентов
надежно­сти требуют корреляции по
меньшей мере двух совокупностей сходных
изме­рений.

Один из методов получения
двух сово­купностей измерений — это
ретестирование (повторное обследование
одной и той же выборки испытуемых).
Несмотря на простоту и возможность
определения ус­тойчивости результатов
теста в течение времени, дефект метода
в том, что субъект помнит свои ответы,
и в случае тестов спо­собностей это
может существенно влиять на повторные
ответы.

Если мы желаем исключить
влияние запоминания на результаты
ответов как систематический источник
ошибки и учесть влияние временного
интервала на ответы, то можем использовать
две сово­купности заданий, разработанных
или ото­бранных по одной системе. Это
— парал­лельные тесты. Недостатком
в данном слу­чае является то, что
очень трудно постро­ить на практике
параллельные формы од­ного и того же
теста.

Если желательно изучить
только вли­яние содержания выборки
без влияния запоминания или вариативности
ответов во времени или если практически
нецеле­сообразно проводить две
параллельные формы в разное время,
надежность может быть оценена проведением
одного теста без ограничения во времени.
В данном случае тест может быть разделен
на две равные части. Полученные показатели
по двум частям теста коррелируются
обыч­ным методом. Но эта корреляция
отража­ет лишь надежность половины
теста. Для вычисления надежности всего
теста по методу расщепления используют
формулу Спирмена-Брауна.

Оценка надежности на основе одно­кратного
тестирования может быть полу­чена
путем использования формулы, изве­стной
как коэффициент альфа.

Рекомендуется также оценить
надеж­ность теста относительно
эксперимента­тора как оценщика и как
эксперимента­тора.

Из предыдущего видно, что
различные методы оценивания надежности
исходят из различных источников ошибок.
Так, на результаты ретестирования
влияет не только случайная вариативность
ответов или изменение субъектов во
времени, но также различия в поведении
(особенно если ретестирует другое
лицо). Коэффи­циенты надежности,
основанные на одно­кратном тестировании,
исключают вариа­тивность ответов во
времени, т. е. влияние ответов на баллы
не проявляется как ошибка измерения.
Следовательно, «коэф­фициент
надежности» — обобщенный тер­мин.
Он может основываться на разных типах
свидетельств — каждый тип пред­полагает
иной смысл. Очень важно, что­бы метод,
использованный для получения коэффициента
надежности, был четко описан.

Автору теста рекомендуется
в руко­водстве описать значение
любого коэффи­циента насколько
возможно точно. Напри­мер, высказывание:
«Этот коэффициент показывает стабильность
измерения экви­валентных баллов,
основанных на парал­лельных формах
тестов, проведенных с промежутком в 7
дней, при этом научение испытуемых
исключается» хотя и длин­ное, но
свободно от двусмысленности.

Коэффициенты надежности
имеют ог­раниченную практическую
ценность для пользователей теста.
Стандартная ошиб­ка измерения обычно
более полезна, т. к. обладает относительной
независимостью и может быть использована
для установ­ления пределов определенной
вероятнос­ти балла. Пользователи
теста могут упот­ребить коэффициент
надежности для срав­нения тестов, но
для интерпретации тес­товых баллов
используется стандартная ошибка
измерения.

В.1. В
руководстве к тесту должны быть
достаточно подробно описаны проце­дуры
и выборки, использованные для оп­ределения
коэффициентов надежности, сами
коэффициенты и ошибки измерения, что
позволит пользователю судить о том, в
какой степени эти параметры приложимы
к лицам или группам, с которыми он имеет
дело. Если некоторые из необходи­мых
данных не были получены, то отсут­ствие
такой информации должно быть от­мечено.
(Существенно.)

Комментарий.
Для пользователя важно получить
несколько типов оценки надежности.
Полезным является сообще­ние
стандартных ошибок измерения, по­лученных
в разных группах. Следует при­вести
среднее значение и дисперсию вы­борки
и информацию о ее составе. Надеж­ность
теста, предназначенного для отбора
работников, проверяется при тестирова­нии
кандидатов на должность, а не школь­ников
или уже работающих. Если указыва­ется,
что тест пригоден для различных
воз­растных групп, следует привести
данные о надежности для каждого класса
или возра­ста. Авторы и публикаторы
тестов должны избегать необщепринятых
статистических процедур, если применимы
традиционные. Если представлен
необщепринятый статистический анализ,
он должен быть объяс­нен так, чтобы
свести к минимуму вероят­ность
ошибочной интерпретации.

В.1.1. В
руководстве к тесту следует представить,
насколько это возможно, количественный
анализ всех факторов, снижающих
надежность измерения: не­согласованность
ответов субъекта; несог­ласованность
или неоднородность внутри выборки
содержания теста (стимульные задания,
вопросы, ситуации и др.); несогласованность
в проведении теста; несогласованность
между оценщиками, экспертами или
единицами математического ап­парата;
механические ошибки при выстав­лении
баллов. (Желательно.)

Комментарий.
Подобный анализ может быть неосуществим,
если результаты теста выражены не в
количественной форме, а в категориальной
или непарамет­рической.

Для группы тестов школьных
дости­жений основными источниками
ошибок, подлежащих оценке, являются:
а) несог­ласованность в содержании
теста; б) не­согласованность в
проведении теста; в) не­стабильность
ответов испытуемых. Сбор данных
производится для оценки этих трех
факторов. Колебания или несогласо­ванность
ответов субъекта сами по себе могут
быть важной переменной. Они час­то
бывают главными источниками подле­жащей
оцениванию случайной ошибки. Также
должна быть оценена несогласо­ванность
между оценщиками.

В.1.2.
Стандартные ошибки измерений и
коэффициенты надежности должны
при­водиться как для итогового балла,
так и для его частей, комбинаций баллов
(сумм, разниц, производных показателей),
если они рекомендованы в руководстве
к тесту (явно или неявно) для практического
ис­пользования, за исключением опытных
и экспериментальных. (Существенно.)

В.1.3. В
руководстве должно быть ука­зано
минимальное различие между двумя
баллами, обычно требуемое для
статис­тической значимости на
определенном уровне. (Очень
желательно.)

В.1.4. В
руководстве должны быть опи­саны все
характеристики выборки, кото­рые
могут оказывать влияние на надеж­ность
оценивания. (Существенно.)

Комментарий.
В руководстве следует отразить такую
демографическую информацию, как
распределение субъек­тов по возрасту,
полу, экономическому и интеллектуальному
уровню, трудовому статусу или прошлой
трудовой деятель­ности, месту
жительства. Для стандар­тизированных
тестов при вычислении коэффициентов
надежности выборку сле­дует формировать
случайным образом из генеральной
совокупности.

В.1.5.
Если тест рекомендован или обычно
используется в однородных под­группах,
для каждой из них независимо должна
быть исследована надежность и ошибка
измерений, и это должно быть со­общено
в руководстве к тесту. (Суще­ственно.)

В.1.6. В
руководстве к тесту должна быть сообщена
стандартная ошибка изме­рения для
разных уровней баллов. (Жела­тельно.)

Комментарий.
В руководстве к одному тесту способностей
сообщаются стандартные ошибки для трех
уровней баллов: на уровне среднего
балла, на уров­не одного стандартного
отклонения выше среднего и на уровне
одного стандартного отклонения ниже
среднего. Так как наибо­лее существенные
вариации ошибок изме­рения связаны
с крайними баллами, луч­ше опираться,
если позволяет количество доступных
случаев, на более широкий ди­апазон
уровней баллов.

В.1.7.
Неизвестные статистические характеристики
данных должны быть опи­саны со ссылками
на литературные источ­ники, отражающие
разработку. (Суще­ственно.)

Внутренняя согласованность.

В.2. В
руководстве должны быть пред­ставлены
данные о внутренней согласо­ванности
(гомогенности, консистентности тест).
(Очень желательно.)

Комментарий.
Внутренняя со­гласованность важна,
если задания рас­сматриваются как
выборка из относи­тельно однородного
общего множества (например, тест сложения
целых чисел, словарный тест для средней
школы, тест, предположительно измеряющий
интроверсию и т. п.). Меры внутренней
согла­сованности не заменяют иных
мер.

В.2.1.
Оценки внутренней согласован­ности
определяются соответствующими методами
расщепления пополам, при по­мощи
коэффициента альфа или других процедур,
которые должны быть адекват­ны
анализируемым данным. Любая другая
мера внутренней согласованности,
кото­рую автор дополнительно сообщает,
в ру­ководстве к тесту должна быть
подробно объяснена. (Очень
желательно.)

Комментарий.
Коэффициенты парного расщепления
отражают суждения экспертов и обнаруживают
тенденцию быть выше, чем коэффициенты
случайно­го расщепления. Дисперсионный
анализ обычно дает более низкие оценки
по срав­нению с приемами парного
расщепления. Могут быть полезными
специальные ко­эффициенты: они должны
быть описаны так, чтобы читатель мог
понять их соотно­шение с общепризнанными
оценками.

В.2.2.
Оценки внутренней согласованности не
следует вычислять для скоростных
тестов. (Существенно.)

В.2.3. Если
тест состоит из отдельно оцениваемых
частей или разделов, в руководстве к
тесту следует сообщить кор­реляцию
между частями или разделами вместе с
соответствующими оценками на­дежности,
а также с соответствующими средними и
стандартными отклонениями. (Очень
желательно.)

В.2.3.1.
Если в руководстве сообщает­ся
корреляция между баллом по отдельно­му
субтесту и общим тестовым баллом,
необходимо подчеркнуть, что коэффици­ент
неоправданно высок, так как он ос­нован
на совпадении ошибок измерения субтестом
и общим тестовым баллом. (Существенно.)

В.2.4.
Если несколько вопросов внут­ри теста
экспериментально связаны так, что ответ
на один вопрос влияет на другой вопрос,
предпочтительно относить целую группу
вопросов к одной из двух половин теста,
когда применяются методы случай­ного
или парного распределения пополам. Тот
факт, что число заданий в этих поло­винах
не равно, не вызывает затруднений при
соответствующей процедуре анализа.
(Очень желательно.)

Ретестирование.

В.3. В
руководстве к тесту должны быть
представлены результаты ретестиро-вания,
т. е. пользователь должен знать, насколько
оценки стабильны. (Сущест­венно.)

Комментарий.
Ретестовая на­дежность показывает,
в какой степени ре­зультаты теста
можно распространить на различные
случаи его применения. Приво­дя в
руководстве ретестовую надежность,
всегда необходимо указывать, в каком
ин­тервале времени она измерялась и
какие влияния на испытуемых имели место
в этот период. На практике ретестовая
на­дежность в ряде случаев бывает
важнее, чем надежность по однородности.
Если нет ретестовой надежности, тест
не может быть валидным. Исключение
составляют тесты, для которых
ретестирование не применяется (тесты
оценки состояний, эмоций).

Считается обоснованным
требовать оценивания стабильности для
проектив­ных техник и других средств
оценки лич­ности, даже если в некоторых
случаях известно, что низкая стабильность
ретестирования за существенный период
отражает только истинное изменение
свойства. Клиническая практика редко
до­пускает, что выводы из проективных
тес­тов приложимы к дню исследования.
Ре­ально считается, что на основе
тестовых данных принимаются прагматические
ре­шения, имеющие смысл в течение как
минимум нескольких дней, а обычно —
недель или месяцев терапии. Если
обнаруживается, что результаты некоторого
те­ста очень нестабильны при интервале
в не­сколько дней, это свидетельство
вызывает сомнения в пригодности теста
для боль­шинства целей, даже если эта
изменчи­вость может быть объяснена
гипотезой об изменчивости свойства.
Исследователь может столкнуться с
психологической ха­рактеристикой
или результатом обучения, который за
короткое время изменяется. В этом случае
важно не смешивать неус­тойчивость
свойства с нестабильностью измерения.

В.3.1.
При определении стабильности баллов
повторным тестированием целесообразно
использовать параллельные формы теста,
чтобы свести к минимуму при­поминание
отдельных ответов, особенно при небольшом
интервале между тестированиями. (Очень
желательно.)

В.3.2.
При описании исследования согласованности
баллов во времени в руководстве к тесту
необходимо указать, какой промежуток
времени прошел между тестированиями,
и привести средние стандартные отклонения
баллов для каждого тестирования, а
также коэффициент корреляции.
(Существенно.)

В.3.3. Если
есть основание ожидать, что тестовые
баллы за некоторый период существенно
изменяются в соответствии с образовательными
или развивающими воздействиями, в
руководстве следует предупредить
пользователей об этой возможности.
(Очень желательно.)

В.3.4.
При сообщении о стабильности тестовых
баллов в руководстве к тесту необходимо
описать накопление соответ­ствующего
опыта, обучение или лечение испытуемого
за период между тестирова­ниями.
(Существенно.)

Сравнимость форм.

В.4. Если
опубликованы две формы те­ста,
предназначенные для возможного
применения к тем же испытуемым, в
ру­ководстве к тесту должны быть
сообщены средние и дисперсии двух форм
вместе с коэффициентами корреляции
двух сово­купностей баллов. Если в
руководстве не представлены необходимые
данные, пользователь должен быть об
этом предуп­режден. (Существенно.)

Комментарий.
Для каждой фор­мы следует представить
обзор таких ха­рактеристик заданий,
как частотные рас­пределения
показателей трудности и дискриминативности
заданий. Следует пред­ставить также
содержательный анализ каждой формы.
Следовательно, необходи­мо отразить
как частотные распределения статистических
характеристик заданий, так и таблицы
заданий по группам их со­держания,
характеристик поведения и учебных
целей.

Формы должны включать
различные выборки заданий из каждой
категории со­держания. Искусственно
близкое сход­ство между формами может
быть вызва­но совпадением заданий
или разработкой второй формы простой
перефразировкой заданий первой формы.
Коэффициент на­дежности будет
чрезмерно высоким, т. к. не учитывается
ошибка выборки из обще­го множества
заданий.

Г. Валидность (обоснованность) теста.

Вопросы валидности — это
вопросы о том, какие и насколько
обоснованные выводы могут быть сделаны
на основе те­стовых оценок. Вопросы,
относящиеся к валидности, могут быть
сведены к двум: 1) какие выводы можно
сделать о том, что измерялось тестом;
2) какие выводы могут быть сделаны о
реальном поведении чело­века,
отличающемся от наблюдаемого при
тестировании.

1-й вопрос выясняет внутреннюю
при­роду самого измерения. Тест, как
измери­тельный инструмент, является
операционализацией психического
свойства или специфической области
умения или зна­ния. В этом плане
существенной пробле­мой является
получение заключений о полноте отражения
тестовыми баллами этой области, и в
этом смысле следует го­ворить о
внутренней (конструктной) ва­лидности.

2-м вопросом выясняется
полезность тестового измерения в
качестве предска­зателя поведения.
В этом плане суще­ственной проблемой
является получение заключения о том,
насколько тестовые баллы связаны с
некоторой другой дея­тельностью, и
в этом смысле следует го­ворить о
внешней (критериальной) валид­ности.

Важно отметить, что валидность
не измеряется, о ней только судят. В
руковод­стве могут быть приведены
коэффициен­ты валидности, но о
валидности теста для конкретного его
использования судят по набору
коэффициентов. Следовательно, валидность
есть нечто такое, о чем судят как об
удовлетворительном или неудов­летворительном
для вынесения соответ­ствующего
суждения.

Виды валидности зависят
от видов зак­лючений, которые желательно
извлечь из тестовых оценок. Традиционно
описывают три взаимозависимых типа
интерпретации заключений, обобщающих
подавляющее большинство возможностей
применения тестов: валидность по
критерию, содержа­тельная и конструктная.
Валидность по критерию может быть
предсказательной и конкурентной.

Эти аспекты могут
рассматриваться независимо друг от
друга, однако незави­симость эта
условна. Они связаны операционально и
логически, в конкретной си­туации
редко бывает, чтобы лишь один из них
был важен. Полное исследование те­ста
часто включает информацию обо всех
видах валидности.

Валидность по критерию
и ее виды.
Данная
форма валидности исполь­зуется, когда
хотят сделать вывод о связи тестовой
оценки индивида с независимы­ми от
теста внешними параметрами, назы­ваемыми
критерием. Предсказательная валидность
отражает степень, с которой будущий
уровень по критерию может быть предсказан
предшествующей деятельнос­тью по
тесту. Конкурентная валидность отражает
степень, с которой тест может быть
использован для оценки у индивида
актуального уровня по критерию. Это
раз­личие важно. Предсказательная
валид­ность включает отрезок времени,
в те­чение которого может нечто
случиться (например, люди обучаются,
приобретают опыт, подвергаются лечению).
Конкурен­тная валидность отражает
только статус индивида в фиксированное
время. При со­ответствующих условиях
данные о конку­рентной валидности
могут быть исполь­зованы для оценки
предсказательной ва­лидности теста.
Однако конкурентная ва­лидность не
может использоваться взамен
предсказательной без соответствующего
логического обоснования. Для многих
применений тестов (решение по отбору,
назначению лечения и др.) предсказатель­ная
валидность дает возможность опреде­лить
целесообразность использования те­ста
или батареи тестов в каждом отдель­ном
случае. Другие формы валидности не
заменяют валидность по критерию. В
ру­ководствах к тестам, разработанным
в предсказательных целях, а также
предназ­наченным для диагноза, должны
быть от­ражены исследования валидности
по критерию. В противоположном случае
такие тесты могут рассматриваться
только как исследовательские версии.

О сомнительности отдельного
вычис­лительного коэффициента
валидности говорят многие факторы.
Условия иссле­дования валидности
никогда точно не по­вторяются. Быстрое
изменение условий может ограничить
точность и полезность предсказательного
исследования. Логика предсказательной
валидизации предпола­гает, что
условия, существующие в нача­ле
испытаний, будут существовать и пос­ле
завершения исследования.

Логика валидности по
критерию пред­полагает валидность
самого критерия. Очень часто тесты
валидизируются отно­сительно
доступного критерия вне соот­ветствующего
исследования самого крите­рия.
Ценность исследования валидности по
критерию зависит от пригодности и
ка­чества измерения по данному
критерию. В прикладных исследованиях
критерий дол­жен выбираться в
соответствии с изучае­мой проблемой,
а тест или другое средство оценивания
должны выбираться относи­тельно
данного критерия. Если исследова­ние
предназначено в первую очередь для
улучшения представлений о том, что
из­меряется тестом, критерии должны
изби­раться на основе заключений о
природе конструкта, отражаемого
тестовыми оцен­ками. В любом случае
адекватность иссле­дования зависит
от адекватности крите­рия.

Логика валидности по
критерию пред­полагает, что выборка
полностью репре­зентативна для
популяции, для которой позднее будут
делаться заключения. На практике выборки
часто не являются реп­резентативными,
например, из-за ограни­ченного объема,
предвзятого отбора или утомления
испытуемых до завершения валидизационного
исследования.

Во многих практических
ситуациях валидизационные исследования
не могут охватить адекватного числа
случаев, и ис­следователи вынуждены
публиковать луч­шее из того, что они
могут при имеющих­ся данных. Видимо,
лучше попытаться ис­следовать
валидность по критерию хотя бы каким-то
образом, чем принять совер­шенно
непроверенную гипотезу — резуль­таты
неадекватного исследования могут
ввести в заблуждение. Особенно
сомни­тельны результаты валидизационных
ис­следований при резко ограниченном
ран­ге или малом количестве испытуемых.

Содержательная валидность.
Сви­детельства о
ней требуются, когда пользо­ватель
теста желает оценить, как индивид будет
действовать в ситуации, которую по
предположению будет представлять тест.
Содержательной валидностью обычно
ха­рактеризуются тесты умений и
знаний, оп­росники личности,
поведенческие опрос­ники или средства
измерений различных способностей.
Данное обсуждение отно­сится к
наиболее типичному случаю — те­стам
достижения.

Чтобы выразить содержательную
ва­лидность совокупности тестовых
баллов, необходимо показать, что
поведение испы­туемых при тестировании
является репре­зентативной выборкой
многих видов пове­дения в желаемой
области деятельности. Любое исследование
содержательной ва­лидности требует,
чтобы составитель или пользователь
теста определил свои цели и исчерпывающе
определил область дея­тельности в
свете этих целей. Определе­ние обычно
относится к результатам уче­ния, а
не к процессу, в ходе которого дос­тигается
или обнаруживается научение. Оно должно
быть достаточно детальным и четким,
чтобы отразить степень, с которой
компоненты деятельности образуют
цело­стную область.

Конструктная валидность.
Психо­логический
конструкт является теорети­ческой
идеей, разработанной для объясне­ния
и организации некоторых аспектов
существующего знания. Такие термины,
как «тревожность», «способность к
канцеляр­скому труду» или
«подготовленность по чтению», отражают
конструкт, но конст­рукт может
обозначать больше, чем его название.
Иногда необходимо постулиро­вать
несколько различных конструктов, чтобы
объяснить дисперсию данной сово­купности
тестовых баллов. Более того, могут
потребоваться различные конструк­ты
для объяснения дисперсии различных
тестов того же типа, или отдельный тест
может отразить данные о нескольких
кон­структах. Конструктная валидность
име­ет место при оценивании теста
или другой совокупности операций в
свете рассматри­ваемого конструкта.
Суждения по конструктной валидности
полезны, когда соста­витель или
пользователь теста желает знать об
измеренном психологическом свойстве
больше, чем позволяет отдель­ный
коэффициент валидности по крите­рию,
и особенно когда необходимо
усовер­шенствовать измерение для
научного изу­чения конструкта.

Свидетельства о конструктной
валид­ности нельзя получить в одном
отдельном исследовании — суждения о
ней основа­ны на совокупности
исследовательских результатов. Вначале
исследователь фор­мулирует гипотезы
о различии между ли­цами с высокими
и низкими результатами по тесту. Такие
гипотезы в совокупности образуют
предварительную теорию конст­рукта.
При полном изучении тест высту­пает
в качестве зависимой переменной в одних
исследованиях и в качестве незави­симой
— в других. Некоторые гипотезы могут
быть «контргипотезами» конкуриру­ющих
теорий или интерпретаций.

Гипотезы и теоретические
формули­ровки ведут к некоторым
предсказаниям о том, как люди с различными
баллами по тесту будут выполнять тест
или проявлять себя в некоторых
определенных ситуаци­ях. Если теория
исследователя верна, большинство
предсказаний должно под­твердиться.
Если этого не случится, ис­следователь
может пересмотреть опреде­ление
конструкта или перестроить тест так,
чтобы он стал лучшей мерой подразу­меваемого
конструкта. Путем последова­тельной
верификации, модификации или отклонения
гипотез исследователь все глубже
проникает в сущность измеряемо­го
тестом свойства.

Доказательства конструктной
валид­ности можно получить в ходе
разработки самого теста. Хотя
доказательства конст­руктной
валидности могут быть получены на
основе серии исследований по внешним
критериям, важно отметить, что они
не­адекватны доказательствам
пригодности конструкта для других
гипотез.

Составитель теста или любое
лицо, исследующее валидность, должны
пред­ставить по мере возможности
максимум информации о валидности, чтобы
пользо­ватель мог оценить тест по
отношению к собственным целям. В
руководстве к тес­ту необходимо
отразить данные, позволя­ющие
пользователю оценить пригодность
содержания заданий, установить, явля­ется
ли тест приемлемой мерой рассмат­риваемого
конструкта, и решить, характе­ризуется
ли тест предсказательной валид­ностью
в других подобных ситуациях.

Г.1. В
руководстве должна быть указа­на
валидность теста для всех видов
заклю­чений, для которых он рекомендуется.
Если его валидность для некоторой
пред­полагаемой интерпретации не
была изуче­на, этот факт должен быть
указан. (Суще­ственно.)

Комментарий.
Исследование ва­лидности является
частью разработки те­ста; пользователь
нуждается в том, чтобы составитель
сообщил об этом подробно в руководстве
к тесту. По меньшей мере, в руководстве
должны быть отражены ис­следования
самого составителя или дру­гих
исследователей, опубликованные в других
изданиях. Предпочтительно, чтобы в
руководстве были отражены отдельные
исследования и представлены обобщен­ные
данные о валидности для различных видов
интерпретаций или выводов.

Г.1.1.
Данные о валидности должны быть сделаны
на основании всех типов те­стовой
валидности. (Существенно.)

Комментарий.
Неправильно ис­пользовать выражение
«валидность тес­та», не указывая вид
валидности. Не суще­ствует тестов,
валидных для всех целей или во всех
ситуациях, а также для всех групп
индивидов. Любое исследование ва­лидности
относится к некоторым из воз­можных
применений или видов теста, по­лучаемых
на основе баллов.

Если тест может быть неправильно
ис­пользован в некоторых областях
примене­ния, в руководстве должны
быть специаль­ные предостережения.

Г.1.2.
Если предполагается интерпре­тация
не только баллов субтеста, но и раз­личных
индексов, в руководстве должны быть
помещены свидетельства, подтверж­дающие
правомерность такой интерпрета­ции.
(Существенно.)

Г.1.2.1.
Разработчик должен предупре­дить
пользователя о невозможности
рас­сматривать ответы на отдельные
задания теста в качестве основы для
составления заключений об испытуемом.
Если подоб­ная оценка заложена в
структуре теста, то в руководстве должно
быть приведено под­робное обоснование
такого применения.

Г.1.3.
Чтобы обеспечить правильную интерпретацию
баллов в течение длитель­ного времени,
валидность предполагаемых интерпретаций
должна периодически пе­репроверяться
и результаты сообщаться в последующем
руководстве. (Очень
жела­тельно.)

Комментарий.
Требования к тру­ду, условиям работы
и людям, работаю­щим по данной
профессии, с течением вре­мени часто
существенно изменяются. Подобным
образом изменяется смысл клини­ческих
категорий, типы медикаментозно­го
лечения, цели и содержание обучения.
Следовательно, пользователь должен
быть в состоянии судить о том, устарел
тест или нет.

Г.1.3.1.
При изменении факторов, ко­торые
могли повлиять на результаты вы­полнения
или на валидность предполага­емой
интерпретации теста, в случае если для
изменившихся условий не произве­дена
ревалидизация, тест должен быть исключен
из общего употребления и рас­пространяться
среди лиц, которые будут производить
изучение его валидности. (Очень
желательно.)

Г.1.4.
Корреляции баллов заданий с общим
тестовым баллом могут рассматри­ваться
только как показатели дискриминативности
заданий, не могут рассматри­ваться
или использоваться в качестве
ко­эффициентов их валидности.
(Сущест­венно.)

Комментарий.
Коэффициенты дискриминативности
заданий полезны при суждении о
конструктной валидности, и эту информацию
следует включать в ру­ководство к
тесту. Однако такие коэффи­циенты
являются не показателями валид­ности
теста, а только мерой внутренней
согласованности.

Г.2.
Выборка, использованная в иссле­довании
валидности, и условия, при кото­рых
проводилось тестирование, должны быть
подробно описаны, чтобы пользова­тель
мог судить, распространима ли сооб­щенная
валидность на его ситуацию. (Су­щественно.)

Г.2.1. В
руководстве к тесту следует указать
все параметры, определяющие со­став
валидационной выборки. Выборка должна
быть описана по тем переменным, о которых
известно, что они влияют на ва­лидность:
возраст, пол, социоэкономический статус,
национальное происхож­дение, также
другие демографические и психологические
характеристики. (Суще­ственно.)

Комментарий.
Если валидационные исследования
используют пациентов в качестве
испытуемых, то важно указать диагнозы.
Если возможно, то необходимо показать
обоснованность диагностики (строгость
условий диагностики). Для те­стов,
используемых в индустрии, должен быть
описан трудовой статус, профессио­нальный
опыт, пол и национальный состав выборки.
Для школьных тестов уместной является
информация о характеристиках популяции
или принципах отбора.

Г.2.2.
Доказательства валидности тес­тов
должны быть получены для субъектов,
которые по возрасту, образованию или
профессиональной подготовленности
со­ответствуют лицам, для которых
тест ре­комендуется. В руководстве
должны быть отражены отклонения от
этого требова­ния. (Существенно.)

Комментарий.
Информация о валидности тестов,
предназначенных для профориентации,
должна в общем определяться на субъектах,
тестирован­ных незадолго до
образовательного или профессионального
выбора или сразу после него.

Вопросник интересов,
стандартизиро­ванный на мужчинах,
работающих по ис­следуемой профессии,
не обеспечивает использование вопросника
в профориен­тации учащихся средней
школы, посколь­ку полученные шкалы
не дифференциру­ют группы учащихся.
Лучшее доказатель­ство было получено
после проверки воп­росника на учащихся
с определением ха­рактера из последующей
работы и уста­новлением связи между
данными вопрос­ника и последующей
профессией.

Если вопросник интересов
использует критерий приобретения или
неприобрете­ния некоторой профессии,
в выборке, ис­пользованной для его
валидизации, долж­ны быть только лица
со способностями, соответствующими
данной группе профес­сий.

Г.2.3.
При описании выборки должны быть
приведены основные статистические
данные, включая число наблюдений (и
обоснование наблюдений), меры цент­ральной
тенденции вариативности. Следу­ет
также отразить особенности распреде­ления,
возможно, с мерами асимметрии и эксцесса.
(Очень желательно.)

Комментарий.
Чем меньше объем валидационной выборки,
тем менее на­дежны статистические
данные. Когда чис­ло наблюдений очень
мало, нулевой коэф­фициент корреляции
может привести к ошибочному отклонению
валидного теста.

Г.2.4. Если
тестовые баллы в валида­ционной
выборке имеют распределение, существенно
отличающееся от распреде­ления баллов
в группе, для которой он бу­дет обычно
использоваться, то данные, основанные
на этих баллах, включая оцен­ки
параметров популяции, следует
интер­претировать с большой
осторожностью. При сообщении оценок
параметра необхо­димо привести
исходные статистические данные, а также
характеристики распре­деления,
использованные при введении новой
оценки, и использованные статисти­ческие
процедуры. (Существенно.)

Комментарий.
Пользователю ру­ководства следует
предоставить возмож­ность оценить
любое искажение, возника­ющее
вследствие нетипичности характера
выборки. Предположения, обусловливаю­щие
причины такого искажения, часто
иг­норируются, вследствие этого
невозмож­но определить степень и
направление оши­бок. Несмотря на эти
трудности, часто не­обходима оценка
подходящей статистики. Например,
коэффициент валидности дол­жен
отразить предсказательную способ­ность
в группе, к которой тест будет при­меняться.

Г.2.5.
Если тест способностей предназ­начен
для учебного или профессионального
отбора, его валидность должна
устанав­ливаться на субъектах,
заинтересованных в хорошем выполнении
заданий. Если же они являются добровольцами
или пришли к выводу, что результаты
выполнения те­ста не будут использованы
в принятии решений о них, этот факт
должен быть ясно указан (экологическая
валидность). (Очень
желательно.)

Комментарий.
В промышленном отборе для валидности
широко использу­ется метод «наличных
кандидатов на рабо­ту». Обычно он
включает тестирование реальных
кандидатов, которым указывает­ся,
что выполнение теста не влияет на их
прием на работу. Мотивационные разли­чия
могут повлиять на характер выборки,
так как вводят в ситуацию тестирования
новую переменную.

Г.2.6.
Если валидационная выборка образована
на случайно полученных или произвольно
присланных пользователями результатах
тестирования, этот факт дол­жен быть
отражен в руководстве к тесту. Пользователь
должен быть предупрежден, что группа
не является систематической или
случайной выборкой из определенной
популяции. Должны быть также указаны
возможные отборочные факторы и их
предполагаемое влияние на переменные
места. (Существенно.)

Комментарий.
Хотя вполне це­лесообразно включать
в руководство та­кие фразы, как «автор
и издатель теста будут приветствовать
дополнительные данные, полученные при
его использова­нии», крайне трудно
адекватно судить о качестве и
представительности большин­ства
сообщений о результатах валидизации,
основанной на подобных данных.

Г.2.7.
Пользователю теста должна быть известна
возможность смещения оценок в тестах
или тестовых заданиях. По возможности
следует изучить вероят­ные различия
валидности по критерию для частных
выборок, различающихся по полу,
этническому составу или другим признакам,
которые могут быть выявлены при
тестировании. В руководстве следует
сообщить результаты для каждой частной
выборки в отдельности или о том, что
раз­личия не обнаружены. (Существенно.)

Комментарий.
Во многих случа­ях опубликованные
правила требуют, ког­да это возможно,
проводить определение валидности для
выборок, отличающихся по национальности,
полу и другим демо­графическим
показателям.

Возможны и другие источники
разли­чий оценок теста в разных
валидационных выборках. Например,
расположение теста по изучению ловкости
рук на низком сто­ле может вызвать
смещение результатов у высоких людей.

Необходимы и другие
предосторожно­сти при оценке
возможности смещения. Простые различия
групповых средних сами по себе не
указывают на контамина­цию теста.
Доказательство дифференциа­ции
смещённости тестовых оценок осно­вывается
на сравнении коэффициентов корреляции,
уравнений регрессий, сред­них значений
и дисперсий каждой пере­менной.

Пригодными статистическими
кри­териями таких различий являются
для любого параметра проверки гипотез
об от­сутствии различий между группами,
на­пример отсутствие различий между
коэф­фициентами корреляций, показателями
наклона или пересечения. Другими
спосо­бами — тем, что один коэффициент
кор­реляции значимо отличается от
нуля, а другой не отличается, невозможно
дока­зать предполагаемые различия.

Необходимо учесть, что
существуют различные определения
чистоты и от при­нятого определения
может зависеть, явля­ется ли данная
процедура чистой. Более того, имеются
статистические и психоло­гические
неопределенности относительно некоторых
источников наблюдаемых различий в
валидности или регрессии. До тех пор
пока различия не наблюдаются в достаточно
больших выборках и пока от­сутствует
достаточное теоретическое (психологическое
или социологическое) объяснение
наблюдаемых различий, лю­бое различие
принимается осторожно. Смещение
обнаруживается не обязатель­но для
валидности по критерию.

Г.3.
Пользователь теста ответственен за
изучение данных, подтверждающих его
валидность и надежность. Применение
тестовых баллов при принятии решений
должно опираться на достаточные
доказа­тельства. (Существенно.)

Комментарий.
Пользователь те­ста ответственен за
понимание и оценива­ние возможности
применения теста в сво­ем исследовании.
В случае, если условия стандартизации
и проверки на валидность и надежность
теста отличаются от тех ус­ловий, в
которых работает пользователь, на
пользователя ложится обязанность
провести дополнительные исследования
валидности теста для собственного
иссле­дования. Свидетельства о
валидности не­обходимы для любого
обоснованного при­нятия решений, а
не только тогда, когда их легко получить.

Г.3.1.
Пользователи теста ответствен­ны за
сбор данных о валидности и надеж­ности
используемых методик. (Очень
же­лательно.)

Г.3.2.
Если пользователь желает при­менить
тест в ситуации, для которой такое
применение ранее не проверено на
валид­ность или для которой не
существует подтвержденных доказательств
валиднос­ти, он несет полную
ответственность за валидизацию.
(Существенно.)

Комментарий.
Тот, кто публику­ет данные о валидности,
должен обеспе­чить ее доказательства.
Зачастую данные о валидности, достаточные
для примене­ния тестов, имеются в
руководстве к тес­ту. Если пользователь
желает заявить, что валидность является
более общей, чем это отражено в
руководстве, он несет ответ­ственность
за доказательность своего ут­верждения.

Если пользователь теста
существенно изменяет инструкцию, язык,
на котором тест написан, или содержание,
он должен провести повторную валидизацию
приме­нения теста в измененных
условиях.

Валидность по критерию.

Г.4. Все
меры валидизации по крите­рию должны
быть описаны полно и точ­но. Критерии
должны быть оценены с то­чки зрения
их адекватности, надежности и
загрязненности (контаминированности),
что следует убедительно подтвер­дить.
Необходимо обратить внимание на значимые
аспекты деятельности, кото­рые
критериальные меры не отражают, и на
посторонние факторы, которые могут
оказывать влияние на эти меры.
(Суще­ственно.)

Комментарий.
Критерии явля­ются формами оценивания
и должны со­ответствовать тем же
требованиям, что и разработка любой
оценочной техники. При диагностике в
области труда и образо­вания критерием
может быть тест дости­жений или
перечень трудовых действий, достаточно
валидных по содержанию. Оценочные
суждения руководителей и пе­дагогов
являются критерием более об­щим, но
и более сомнительным по конструктной
валидности. Выводы о конструктной
валидности оценочных суждений мо­гут
быть основаны на высокой их корре­ляции
с результатами деятельности и мак­симально
не зависеть от трудового стажа. При
изучении интересов иногда не выяс­няется,
что показывает критерий: удовлет­воренность,
успешность или длительность изучаемой
деятельности. Когда группы по критерию
включают лиц данной профес­сии и
когда эти группы сравниваются с людьми
вообще, в руководстве должно быть
подчеркнуто различие между работой по
профессии и успехом или удовлет­воренностью
ею.

Г.4.1.
Особое внимание должно быть обращено
на потенциальные источники контаминации
критерия; необходимо со­общить о
результатах исследования кон­таминации.
(Существенно.)

Комментарий.
Результаты таких исследований могут
быть неоднозначны, и пользователя надо
об этом предупредить. Например, при
изучении влияния половых различий на
оценку по критерию может обнаруживаться
существенная разница между мужчинами
и женщинами. Однако этот факт сам по
себе не является доста­точным
свидетельством контаминации критерия:
он может отразить фактические половые
различия деятельности.

Г.4.2.
Когда сообщается валидность теста для
предсказаний в сфере професси­ональной
деятельности, в руководстве должны
быть описаны служебные обязан­ности
работников наряду с наименовани­ем
выполняемых ими действий. (Очень
желательно.)

Комментарий.
Принцип заклю­чается в том, что должна
даваться инфор­мация, на основе
которой пользователь мог бы судить о
состоятельности крите­рия. При
отсутствии такой информации описание
критерия часто является непол­ным.

Г.4.3.
При валидизации по критерию обычно
следует рассматривать не один, более
общий критерий, а несколько част­ных,
составляющих общий.

Комментарий.
В большинстве видов деятельности по
выполнению теста деятельность выражается
во многих пара­метрах, которые могут
быть независимы. При объединении
несвязанных аспектов поведения в единый
сложный критерий возможно игнорирование
важных зависи­мостей и тем самым
уменьшение способно­стей пользователей
идентифицировать и понимать валидные
интерпретации теста.

Отдельные решения часто
должны быть приняты на многомерной
основе. Тем не менее предпочтительнее
найти прави­ло принятия решений для
объединенных предсказаний.

Г.4.4.
Если валидность теста оценива­ется
по его соответствию психиатричес­ким
суждениям, следует указать квалифи­кацию,
опыт и профессиональный статус экспертов,
также природу и степень их контактов
с пациентами и другие потенци­ально
влияющие факторы. (Очень
жела­тельно.)

Комментарий.
Например, «пара­ноидная шизофрения,
хроническая» луч­ше, чем просто
«шизофрения». Так как типы пациентов,
подвергаемых специаль­но диагностической
классификации, в не­которой степени
зависят от выбора психи­атра, должно
быть предоставлено развер­нутое
описание каждой диагностической
категории, использованной в исследова­нии
валидности.

Г.4.6.
Коэффициенты валидности спе­цифичны
для ситуаций, в которых они получены.
Если в руководстве дано сооб­щение
о валидности для предсказания данного
вида конструкта (критерия), необ­ходимо
представить материалы, предпола­гающие
границы этого обобщения относи­тельно
характеристик популяции или вы­борки,
ситуационных переменных или ва­риации
изменения по критерию. (Очень
желательно.)

Г.4.7.
Так как критерий является вы­борочным
из всевозможных критериев того же
конструкта, валидность должна быть по
возможности определена как со­ответствие
этой выборки другим похо­жим выборкам.
Если доказательства по этому вопросу
представлены быть не мо­гут, автор
на основе суждения по кос­венным
данным должен это указать и об­судить
вероятную степень соответствия выборки
другим выборкам. (Очень
же­лательно.)

Комментарий. Если валидность
измерена, например, по соответствию
те­ста суждениям психиатров, то должна
быть описана степень согласованности
между экспертами. Если в качестве
кри­терия использован опубликованный
тест достижений, то его соответствие
па­раллельным формам или надежность,
со­общенные автором теста, могут быть
ис­пользованы как основа для оценивания
критерия при учете влияния различия
между взятой выборкой лиц и исходной
выборкой.

Г.4.8. В
руководстве должны быть от­ражены
данные о степени полноты и обоб­щенности
информации о валидности. (Очень
желательно.)

Г.4.8.1.
В руководстве к тесту должны быть
сообщены данные о валидности тес­та
относительно каждого критерия, для
которого даются рекомендации. Если для
некоторой интерпретации валидность
не выявлялась, этот факт должен быть
ясно указан. (Существенно.)

Комментарий.
Если с данным наименованием профессии
соотнесен ши­рокий круг обязанностей,
пользователей теста следует предупредить
о несостоя­тельности предположения,
что только одно сочетание интересов и
способностей соотносимо с данной
профессией.

Г.4.9.
Локальный сбор доказательств валидности
по критерию часто более по­лезен, чем
опубликованные данные. В та­ких
случаях в руководстве должен де­латься
упор на локальные исследования
валидности, а пользователи теста должны
по возможности проводить такие
исследо­вания. (Желательно.)

Г.5. В
валидизационном исследовании при сборе
данных необходимо использо­вать
процедуры, соответствующие целям
исследования. (Существенно.)

Г.5.1.
При сборе данных для валидиза­ции
исследователь, интерпретирующий
результаты теста, должен располагать
только той информацией об испытуемых,
которая обычно будет доступна при
прак­тическом использовании тестов.
Если существует некоторая возможная
конта­минация, связанная с априорным
пред­ставлением об испытуемых, в
руководстве должно быть обсуждено
влияние этого фактора на результаты
исследования. (Существенно.)

Г.6.
Любой статистический анализ ва­лидности
по критерию в руководстве дол­жен
даваться в форме, по которой поль­зователь
мог бы определить, с какой сте­пенью
доверительности можно принять утверждения
или предсказания относи­тельно
индивида. (Существенно.)

Г.6.1. В
докладе о валидности по кри­терию
должна быть отражена полная ин­формация
о выполненном статистическом анализе.
Следует включить, кроме основ­ных
описательных статистик (средних и
стандартных отклонений), еще один или
несколько показателей: а) один или более
коэффициент корреляции известного
вида; б) описание эффективности, с
кото­рой тест различает группы по
критерию; в) таблицы ожиданий; г) графики
зависи­мости между тестом и критерием.
(Суще­ственно.)

Комментарий.
Полная информа­ция включает данные
о надежности, тес­ноте и характере
зависимости. В корреля­ционное понятие
включается информация о статистической
значимости и величине коэффициента
корреляции, а также о рег­рессионном
уравнении.

Сообщение о различии между
средни­ми групп само по себе не дает
адекватной информации о валидности:
если дисперсия большая, классификация
может быть не­точной, даже если средние
различаются существенно. Теснота связи
может быть представлена описанием
количества оши­бочной классификации
или совмещений групп. Таблицы ожиданий
могут дать информацию о характере
предсказания.

В общем, так как руководство
часто пред­назначено для пользователей,
имеющих слабую статистическую подготовку,
дол­жны быть приняты все меры для
ясного со­общения валидности.

Г.6.1.1.
Коэффициент валидности дол­жен быть
дополнен сообщением о пара­метрах
уравнения регрессий и стандарт­ной
ошибкой оценки. (Очень
желатель­но.)

Комментарий.
Необходимая ин­формация может быть
представлена в таб­лице ожиданий,
показывающей величину возможных оценок
по критерию для каж­дого балла (или
группы баллов) по тестам. Очень полезна
стандартная ошибка оцен­ки для
различных точек шкалы предсказа­ний.

Г.6.2.
Если валидность теста выявляет­ся
сравнением групп, различающихся по
критерию, то в руководстве к тесту
необ­ходимо сообщить, различаются
ли группы, и насколько различаются, по
другим пере­менным. (Очень
желательно.)

Комментарий.
Так как группы, различающиеся по
критерию, могут также резко различаться
и в других отношениях, то тест может
различать качества, от­личающиеся
от подразумеваемых. Напри­мер, типы
умственного расстройства связаны с
возрастом, образованием и дли­тельностью
госпитализации. Это всегда должно быть
учтено при оценке полезно­сти теста
для диагностики.

Г.6.2.1.
Если тест предназначен для дифференциального
анализа, то в руко­водстве должны
быть приведены доказа­тельства
способности теста отнести ин­дивидов
в диагностические группы, а не только
отделять диагностируемые груп­пы от
популяции нормальных. (Суще­ственно.)

Комментарий.
Когда тест реко­мендован для отнесения
индивидов в дис­кретные категории,
то φ-коэффициенты или дискриминативные
функции должны быть дополнены таблицами
оценок оши­бочных решений. Например,
для каждой категории должен быть
определен про­цент лиц, ошибочно
исключаемых из нее. Такие проценты
должны сравниваться с базовыми оценками,
т. е. с процентами правильной классификации,
установлен­ными при максимальном
знании объема диагностируемых категорий.

Г.6.3.
Метод статистического анализа должен
выбираться с учетом характерис­тик
полученных данных и выдвинутых ги­потез.
(Существенно.)

Комментарий.
Полученные дан­ные могут очень
незначительно отличать­ся от
первоначально предполагаемых
ха­рактеристик. Однако даже небольшие
от­клонения от выдвинутых гипотез
могут приводить к серьезным ошибкам.
Напри­мер, при использовании
предсказаний, ос­нованных на
предположении о двумерном нормальном
распределении, возможна се­рьезная
переоценка средней деятельности
кандидатов с высокими баллами, если
дан­ные заметно несимметричны.

В подобных случаях валидность более
точно определяется методом, не основан­ным
на предположении о двумерном
рас­пределении.

Г.6.4.
Если коэффициенты корреляции
скорректированы с учетом ограниченнос­ти
в ранге или ослабления, то должна быть
представлена полная информация о таких
поправках. При этом проверка значимос­ти
должна быть проведена для коэффици­ентов
корреляции без поправок. (Суще­ственно.)

Комментарий.
Поправки долж­ны вноситься только к
вычисленным ко­эффициентам. Обычно
не следует делать последовательных
поправок, например по­правки на
ослабление к коэффициенту, уже
скорректированному с учетом ограни­чения
в ранге. Цепочки поправок могут быть
полезны при рассмотрении возмож­ностей
дальнейших исследований, но эти
результаты не должны представляться
как оценки корреляций в популяции.

Г.6.5.
Если валидизации подвергается батарея
тестов, в руководстве необходимо
отразить валидность суммарной оценки,
а также следует вычислить «вес» каждого
теста в итоговой оценке. (Существенно.)

Г.6.6.
Если весовое объединение тес­тов в
батареи основано на регрессионных
коэффициентах, отрицательные веса
сле­дует использовать только после
проверки на перекрестную валидность
в больших выборках и только в том случае,
когда их использование не скажется
отрицательно (и, следовательно, не будет
несправедли­вым) на одной или нескольких
подгруппах тестируемой популяции.
(Существен­но.)

Г.6.7.
Если предположено, что реше­ние должно
быть основано на сложном не­линейном
объединении баллов, необходи­мо
показать, что такое объединение име­ет
большую валидность, чем простое ли­нейное
объединение, что уравнения могут быть
логически объяснены и процедуры
объединения баллов подвергались
пере­крестной валидизации. (Существенно.)

Г.6.8. По
мере возможности пользова­телю теста,
продолжительное время рабо­тающему
с ним, следует разработать про­цедуры
отбора данных для дальнейшего
исследования. (Желательно.)

Комментарий.
Данные о валид­ности могут устареть,
на зависимость между выполнением теста
и реальной де­ятельностью могут
повлиять многие фак­торы: изменение
характеристик популя­ции, источники
ее пополнения, экономи­ческие и
организационные характеристи­ки.
Более того, исследования валидности
часто основаны на относительном малом
количестве случаев. План систематичес­кого
сбора данных уже после передачи те­ста
в пользование может быть полезным как
для разработки более надежной
стати­стической основы, так и для
информации об изменениях тенденций
зависимости с течением времени.
Продолжение исследо­вания менее
необходимо, если исходные данные
получены в относительно большой выборке,
если хорошо определена основа обобщающей
валидности. В этом случае возможно
планировать время от времени небольшие
повторные исследования вме­сто
продолжительной исследовательской
программы.

Г.7. В
руководстве должна быть указа­на
разница во времени между проведени­ем
теста и сбором данных по критерию. Если
данные по критерию собирались в те­чение
некоторого времени, должны указы­ваться
даты начала и окончания. (Суще­ственно.)

Комментарий.
Валидность мо­жет со временем
уменьшаться. В профо-риентационном
тестировании изменения содержания и
средств труда, уровня спо­собностей
популяции ориентируемых мо­гут
изменять показатели, для которых
по­лучена информация о валидности.

Г.7.1.
Пользователя теста следует пре­дупредить
о необоснованности составле­ния
долговременных прогнозов. (Суще­ственно.)

Комментарий.
Кратковременные прогнозы намного более
валидны, так как менее подвержены
влиянию разных фак­торов.

Г.7.2.
Если тест предназначен для дол­говременных,
отстоящих во времени прогнозов, но
представлены сравнения только по
конкурентному критерию, в ру­ководстве
должно быть подчеркнуто, что валидность
долговременных предсказаний осталась
неопределенной. (Существен­но.)

Г.7.3.
Если сообщается валидность те­ста
для предсказания оценки по учебному
предмету, то должна быть достаточно
яс­ная информация о видах деятельности,
необходимой при изучении данных
пред­метов, характере метода обучения
и способе измерения деятельности. Если
тест был проведен после начала изучения
пред­мета, этот факт должен быть
отмечен. (Очень
желательно.)

Содержательная валидность.

Г.8. Если
деятельность по выполнению теста
интерпретируется как репрезента­тивная
выборка из видов деятельности в общем
множестве ситуаций, в руковод­стве
необходимо дать четкое определение
учитываемого общего множества и опи­сать
критерии отбора выборки из него.
(Существенно.)

Комментарий.
В определение не должны включаться
предположения о де­терминирующих
деятельность психичес­ких процессах,
т. к. это объект не содер­жательной,
а конструктной валидности.

Г.8.1.
Если вопрос о соответствии вы­борки
заданий их общему множеству или о
точности выставления оценок решали
эксперты, в руководстве должен быть
опи­сан соответствующий профессиональный
опыт и квалификация экспертов, а также
инструкции, на основании которых
прово­дилась экспертная оценка.
(Очень жела­тельно.)

Г.8.1.1.
Если задания отобраны экспер­тами,
то должна быть обобщена степень
согласованности между их суждениями.
(Желательно.)

Г.8.1.2.
Содержание теста должно быть проверено
относительно возможно­сти смещения.
(Желательно.)

Комментарий.
Смещение может иметь место, если задания
не представля­ют сравнимых видов
деятельности и по­этому не являются
выборкой из области деятельности, общей
для различных под­групп. Такое смещение
следует выявлять с помощью достаточно
полных суждений экспертов. Изучение
установок или интер­претаций заданий
в различных подгруппах также дает
полезную информацию. Суж­дения о
смещении могут быть сами смеще­ны —
следует придерживаться принципа, что
по возможности суждения должны
подтверждаться статистическими
дан­ными.

Г.8.2. В
руководствах к тестам дости­жений
учебных результатов должна быть сообщена
система классификации, ис­пользованная
для отбора заданий. (Жела­тельно.)

Г.8.2.1.
Если тест достижений был разработан в
соответствии с двумерной схемой
«темы—процессы», в руководстве должна
быть представлена эта схема с
пе­речислением заданий, относимых к
каж­дой клетке схемы. (Очень
желательно.)

Г.8.3.
Для любого утверждения о свя­зи
заданий с изучаемым предметом (или
другими источниками содержания) в
руко­водстве должна быть указана
дата, когда изучаемый предмет был
разработан. (Су­щественно.)

Г.8.4.
Если тест описан как валидный по
содержанию труда или видов трудовой
деятельности, в свидетельствах о
валидно­сти должно быть полное
описание трудо­вых обязанностей,
относительная частота, важность, а
также уровень умений, тре­бующихся
при их выполнении. (Суще­ственно.)

Конструктная валидность.

Г.9. Если
автор интерпретирует тест как меру
диагностируемого конструкта (способности,
черты установки), то долж­на быть
полностью изложена предпола­гаемая
интерпретация. Этот конструкт должен
быть полностью ограничен от ин­терпретаций,
вытекающих из других тео­рий.
(Существенно.)

Комментарий.
Например, если тест предназначен для
измерения конст­рукта «тревожность»,
автор теста должен отразить отличия
самого определения дан­ного конструкта
от некоторого другого возможного
значения термина, которое подразумевается,
и должен соотнести свою концепцию с
мерами тревожности, рассмотренными в
литературе.

Описание конструкта может
быть простым, например определение
«креатив­ности» как «совершения
многих ориги­нальных действий». Все
подобные харак­теристики или гипотезы
являются частью авторской концепции.

Г.9.1. В
руководстве должна быть от­ражена
степень случайности предложен­ной
интерпретации и обобщены исследо­вания
гипотез, вытекающих из данной те­ории.
(Существенно.)

Г.9.1.1.
Каждое исследование, содер­жащее
теоретические выводы о тесте, дол­жно
быть отражено так, чтобы были рас­крыты
и операциональные процедуры ис­следования,
и соотнесение результатов с теорией.
(Очень желательно.)

Г.9.1.2.
В руководстве должны быть сообщены
корреляции между тестом и другими
тестами, для которых интерпре­тация
относительно ясна. (Очень
жела­тельно.)

Г.9.2. В
руководстве необходимо приве­сти
доказательства степени, с которой
дру­гие конструкты, отличающиеся от
пред­полагаемого автором, объясняют
диспер­сию баллов теста. (Очень
желательно.)

Комментарий.
Хотя неразумно требовать от автора
теста предвосхище­ния или включения
в руководство каждой противоположной
интерпретации, он все же должен
представить достаточные дан­ные о
противоположных гипотезах, наибо­лее
вероятно объясняющих дисперсию те­стовых
баллов.

Г.9.2.1.
В руководстве к любому специ­ализированному
тесту или вопроснику, используемому в
образовательном отборе, профориентации,
необходимо приводить корреляцию его
баллов с общепринятыми мерами вербальной
и вычислительной спо­собности в
соответствующей популяции. (Очень
желательно.)

Г.9.2.2.
В руководстве должна быть представлена
информация о факторных исследованиях
(если тест подвергался им), показывающих
процент тестовой дис­персии, выявляемой
хорошо известными факторами. (Желательно.)

Г.9.2.3.
Для опросников, являющихся мерами
личности, интересов или устано­вок,
должны быть представлены дока­зательства
степени, с которой оценки чувствительны
к попыткам испытуемых представить
социально желаемую (кон­формную)
картину своей личности или с которой
баллы могут отражать другие ис­кажающие
особенности ответов. Такие виды ответов
должны изучаться в первую очередь для
определенных выборок, а не для более
общей генеральной выборки. Могут быть
представлены корреляцион­ные или
экспериментальные исследова­ния.
(Очень желательно.)

Г.9.2.4.
Если тест, проводимый с огра­ничением
во времени, интерпретируется в качестве
измеряющего гипотетическое психологическое
свойство, не связанное специально с
быстротой выполнения тес­та, то должны
быть представлены свиде­тельства о
влиянии скорости на тестовые баллы и
об их корреляции с другими пере­менными.
(Существенно.)

Комментарий.
Наиболее полным доказательством влияния
скорости выпол­нения может быть
сравнение баллов по двум формам с
обычным ограничением при неограниченном
времени. Корреляция баллов этих вариантов
имеет ограничен­ный смысл, т. к. эти
два балла не являют­ся независимыми.
Менее исчерпывающим доказательством
является процент испы­туемых,
ответивших на последнее задание или
некоторое задание, близкое к концу
теста, за время, отведенное на выполне­ние
теста. Если этот процент ниже 90,
не­обходимо более глубокое исследование,
чтобы показать, что индивидуальные
раз­личия по тесту существенно не
отражают скорости.

Г.9.2.5.
Если различия в стратегии вы­полнения
теста влияют на интерпретацию баллов,
связанных с определенными ха­рактеристиками
подгрупп, об этом долж­на быть дана
ясная информация или ясно указано на
отсутствие ее. (Очень
жела­тельно.)

Г.9.2.6.
Если свидетельство против противоположной
интерпретации основа­но на низкой
корреляции при малом раз­личии между
группами, в руководстве не­обходимо
сообщить доверительность по­правки
или обсудить ошибки измерения, которые
могли снизить соответствующую
зависимость. (Желательно.)

Д. Сведения о процедуре примене­ния
теста.

Интерпретация тестов и
средств изме­рения, так же как и
результатов экспери­мента, наиболее
надежна, когда измере­ния ведутся в
стандартизированных и кон­тролируемых
условиях. Конечно, в тести­ровании
существуют ситуации, когда важ­но
систематически менять обстоятельства
для максимального понимания деятельно­сти
индивида. Например, исследователь может
систематически менять процедуры в
последовательных повторениях теста,
чтобы выяснить пределы умения ребенка
в определенной содержательной области.
Тем не менее, составитель теста должен
сам предусмотреть стандартные процеду­ры,
в которых возможна подобная модифи­кация.
Вне стандартизации качество ин­терпретации
может ухудшиться в степени, с которой
различия в процедуре влияют на результаты
тестирования.

Для большинства целей
наибольший упор делается на строгую
стандартизацию процедур проведения
тестов и инструкций к нему. Если тест
предназначен для раз­нообразных
популяций, эти процедуры должны быть
полностью доступны для всех испытуемых
из каждой популяции.

Д.1. В
руководстве к тесту должна быть указана
квалификация и специализация, необходимая
для проведения теста и его интерпретации.
(Существенно.)

Комментарий.
Однако из руко­водств в определении
квалификации, не­обходимой для
индивидуального тестиро­вания детей
данным тестом, различают психологов,
которые работают с детьми, и тех, кто
работает только со взрослыми. Другое
руководство указывает на специ­фичность
тестирования учащихся, родной язык
которых отличается от языка теста.
Квалификация пользователя может быть
описана путем указания на профиль
специального обучения, которое в общем
считается необходимым для достижения
компетентности. В некоторых руковод­ствах
к тестам могут выделяться наиболее
частые источники ошибок применения
те­ста и указываться виды обучения
пользо­вателей, дающие возможность
устранить эти ошибки.

Д.1.1.
Если тест рекомендован для не­скольких
целей и типов заключений, в ру­ководстве
следует указать степень обученности
пользователей, необходимую для каждого
применения. (Существенно.)

Д.1.2.
Если авторы предполагают, что тест
может использоваться неспециалис­тами,
то руководство должно быть напи­сано
в форме, доступной их пониманию.
(Существенно.)

Комментарий.
С тестом могут иметь дело не только
лица, специально обученные этому.
Испытуемые, члены пе­дагогических и
общественных комиссий, родители имеют
также основание для суж­дений по
тесту. Это их право не вступит в
противоречие с необходимостью сохра­нять
тайну, если им доступны описатель­ные
и объясняющие материалы.

Д.1.3.
Руководство не должно допус­тить,
чтобы тест понимался как
«самоин­терпретирующийся». В нем
должно быть указано, какую информацию
о результа­тах тестирования возможно
представить лицам, не имеющим необходимой
для ин­терпретации подготовки.
(Существен­но.)

Комментарий.
Обычно жела­тельно получать
интерпретацию оценок подготовленным
лицам. Конечно, суще­ствуют тесты,
результаты которых могут быть оценены
испытуемыми; часто полез­но сообщать
тестовые баллы учащимся и родителям.
Если это практикуется, смысл данного
требования в том, что должны да­ваться
необходимые сведения по интер­претации
этих баллов.

В руководстве должно быть
указано, что может выполняться необученным
ли­цом и что не может выполняться.
Напри­мер, в одном руководстве к
широко извест­ному тесту интересов
указывается, что ис­пытуемые могут
усвоить способы оценива­ния результатов
собственных ответов, но подчеркивается,
что они нуждаются в по­мощи
квалифицированного учителя или
консультанта при интерпретации
резуль­татов и построении планов на
будущее.

Д.2. В
руководстве к тесту следует ука­зать
степень необходимого для теста
со­хранения тайны его содержания в
ходе предварительной тренировки. (Очень
же­лательно.)

Комментарий.
Тест числового ряда предполагает
тренировочную практи­ку, для того
чтобы испытуемые лучше по­няли
инструкцию. Данная тренировочная
практика не дублирует заданий теста
и, следовательно, сохраняет содержание
са­мого теста в тайне.

Д.2.1. В
руководстве должны быть опи­саны
примеры неприемлемой практики. (Очень
желательно.)

Д.3. В
руководстве к тесту необходи­мо
отразить основные этапы процедуры его
проведения. (Существенно.)

Комментарий. Обычно последо­вательность
проведения теста такова:

1) объяснить испытуемым цель проведе­ния
теста;

  1. гарантировать сохранение тайны
    индивидуальных ответов;

  2. в соответствии с требованиями
    руководства прочитать инструкцию и
    про­вести тренировку;

  3. попросить испытуемого или
    самому за­полнить (если требуется)
    паспортные и биографические данные в
    регистра­ционных бланках;

  4. ответить на имеющиеся вопросы;

  5. обработать результаты
    теста в соответствии с требованиями
    руководства.

Д.4.
Инструкции по проведению должны быть
отражены в руководстве к тесту максимально
подробно, с подчеркивани­ем, что
пользователь теста может и должен
воспроизвести те условия тестирования,
при которых разработаны нормы и по­лучены
данные о надежности и валидности.
(Существенно.)

Комментарий.
Так как лица, про­водящие тесты в
школах и на производ­стве, иногда
могут не поступать строго по инструкциям
и не понимать необходи­мости их
соблюдения, важно, чтобы руко­водство
в этом отношении было очень убе­дительным.
Для обеспечения стандартно­сти
процедуры некоторые тесты проводят­ся
полностью механизированным спосо­бом.

Д.4.1.
Инструкции, опубликованные в руководстве
к тесту, должны быть доста­точно
полными, чтобы тестируемые пони­мали
необходимость действовать так, как
подразумевал автор теста. (Существен­но.)

Комментарий.
Например, при за­полнении опросника
личности субъект иногда может давать
первый встретив­шийся ему ответ.
Следовательно, подоб­ная возможность
должна быть указана в инструкции,
которую субъект читает или которая ему
зачитывается. Инструкция для вопросников
интересов должна опре­делить, следует
ли испытуемому отмечать то, что ему
нравится в идеале, или также следует
предусмотреть возможность того, что
ему необходимо иметь благоприятные
условия и способности этого достигнуть.
Подобным образом в инструкции необхо­димо
определить, следует ли испытуемо­му
отмечать то, что ему нравится, но
встречается иногда, или только то, что
ему нравится и встречается постоянно.

Д.4.1.1.
Инструкция должна четко под­черкнуть
такие критические моменты, как указания
об угадывании, лимиты времени и способ
ответов. (Существенно.)

Д.4.1.2.
Инструкция для тестирующе­го должна
содержать указания по поводу вопросов
со стороны испытуемых. (Очень
желательно.)

Д.4.2.
Если предусматривается воз­можность
изменения и совершенствова­ния
инструкций, описанных в руководстве к
тесту, то должны быть ясно указаны
ус­ловия, при которых позволительно
это де­лать; эти условия приводятся
или в фор­ме общих правил, или на
основе значи­тельного числа примеров,
или тем и дру­гим способом. (Существенно.)

Д.5.
Инструктаж должен подготовить испытуемого
к обследованию: необходимо предусмотреть
подборки необходимых ви­дов стимульного
материала, листы отве­тов, карандаши,
ручки и т. п. (Желатель­но.)

Д.6.
Процедуры выставления баллов по тестовым
заданиям должны быть изло­жены в
руководстве с максимальной дета­лизацией
и ясностью, чтобы уменьшить вероятность
ошибки при оценивании. (Существенно.)

Д.6.1. В
руководстве к тесту должны быть
представлены инструкции по оцени­ванию
результатов выполнения задания и
указаны процедуры предотвращения
оши­бок подсчета и вычисления. (Очень
жела­тельно.)

Д.6.2.
Если оценивание результатов теста
содержит субъективные процедуры, в
руководстве должны быть представлены
данные степени согласованности
незави­симых оценщиков в операциональных
ус­ловиях. Если таких свидетельств
не име­ется, в руководстве должно
быть обраще­но внимание на вариации
оценивания как возможный значимый
источник ошибок измерения. (Очень
желательно.)

Д.6.3.
Если в тесте используется более чем
один метод выражения ответов испы­туемыми,
руководство к тесту должно со­общить
данные о степени, с которой ре­зультаты,
полученные при использовании различных
методов, взаимозаменяемы. (Существенно.)

Комментарий.
Разное количе­ство времени, необходимого
для ответа на задания в формах,
приспособленных к раз­ным методам
выставления баллов, может влиять на
надежность или валидность те­ста, на
применимость тестовых норм.

Д.6.4.
Если использована необычная или сложная
система выставления балов, в руководстве
к тесту необходимо указать приблизительное
количество времени, необходимое для
выставления баллов по заданиям теста.
(Желательно.)

Д.6.5.
«Формулы поправки на угадыва­ние»
должны использоваться при задани­ях
с множественным выбором или при от­ветах
вида «истинно – ложно» теста на скорость
выполнения заданий. (Жела­тельно.)

Е.
Сведения о
процедуре обработ­ки и интерпретации
тестовых резуль­татов.

По традиции интерпретация
тестовых баллов является
нормированно-референ-тной, т. е.
индивидуальная оценка интер­претируется
в сравнении с оценками дру­гих
индивидов. Однако возможны и другие
интерпретации. Содержательно-референ­тная
интерпретация имеет место, если балл
интерпретируется непосредственно,
соответственно деятельности на каждой
точке измеренного континуума достижений.
Критериально-референтная интер­претация
отражает непосредственно ин­терпретацию
баллов в соответствии с де­ятельностью
в любой данной точке кон­тинуума
внешней переменной. Перемен­ной
внешнего критерия могут быть сред­ние
оценки или уровни трудовой деятель­ности.
Стандартные требования парагра­фа
в принципе относятся больше к
нормированно-референтным интерпретациям
тестов и в меньшей степени к
содержа­тельно-референтным.

Е.1.
Нормы должны публиковаться в руководстве
к тесту одновременно с пуб­ликацией
теста (для операционального использования).
(Существенно.)

Е.1.1.
Нормы должны быть определе­ны также
к тесту, разработанному только для
локального применения или только для
целей предсказания. (Желательно.)
Комментарий. Иногда
забывают, что таблицы норм дают
информацию, по­лезную не только для
сравнения индивида с групповыми данными.
Например, поль­зователь теста из
таблицы норм может из­влечь информацию
относительно уровня баллов, на котором
различительная сила измерения хороша
или плоха.

Е.1.2.
Даже если предполагается, что тест в
первую очередь будет использовать­ся
с локальными нормами, в руководстве к
тесту следует предусмотреть нормиро­вочные
данные, чтобы помочь интерпре­татору,
не имеющему локальных норм. (Очень
желательно.)

Е.2.
Нормы, представленные в руко­водстве
к тесту, должны относиться к определенным
и ясно описанным популя­циям. Этими
популяциями должны быть группы, с
которыми пользователи теста обычно
желают сравнивать тестируемых лиц.
(Существенно.)

Комментарий.
Почти во всех случаях, когда тесты
разработаны не толь­ко для локальных
целей, пользователь хо­чет знать,
насколько они применимы для различных
групп. Для тестов, разработан­ных с
целью широкого использования в школах
или в промышленности, необходи­ма
информация о различиях и сходствах
нормативных данных для таких групп,
как группы по полу, национальности,
образо­ванию или возрасту. В руководстве
долж­ны быть описаны случаи, когда
нормы для одних групп также подходят
и для других групп.

Например, руководство к
вопроснику профессиональных интересов
или к тес­там способностей, важных
для некоторых профессий, должно
подчеркивать, что лицо, получающее
высокую оценку инте­ресов или
способностей к учебному пред­мету
или профессии при сравнении со «средним»
человеком, получает более низ­кую
оценку интересов при сравнении с
ли­цами, фактически занимающимися в
этой области. Так, высокий процентильный
балл по шкале музыкальных интересов,
в которой испытуемый сравнивается со
«средним» человеком, может быть
эквива­лентен низкому процентильному
баллу при сравнении испытуемого с
профессио­нальным музыкантом.

Е.2.1.
Необходимо предотвращение ошибочного
впечатления о генерализованности
нормативных данных. (Существен­но.)

Комментарий.
Нормативные данные, полученные для
выборки людей или школ со специфическими
чертами, часто используются так, как
будто они получены по репрезентативным
общего­сударственным группам. Так,
имеются пользователи тестов, которые
могут ска­зать, что испытуемый читает
на уровне де­сятиклассника, вне учета
того, что нормы фактически получены на
основе лучших школ, добровольно принявших
участие в исследовании по разработке
теста. Ошиб­кой интерпретации является
предположе­ние, что нормы добровольных
групп уча­щихся приложимы к школам
вообще. Сфера действия таких ошибок
может быть со­кращена, если в руководстве
к тесту чет­ко определены характеристики
норматив­ной популяции.

Е.2.1.1.
В руководстве к тесту необхо­димо
сообщить метод отбора выборки из
популяции испытуемых и обсудить
веро­ятное смещение в выборочной
процедуре. (Существенно.)

Е.2.1.2.
Нормы, сообщенные в руко­водстве к
тесту, должны быть основаны на хорошо
спланированной выборке, а не на данных,
собранных в основном из-за их относительной
доступности. Любое откло­нение от
намеченного плана должно быть отражено
одновременно с описанием дей­ствий,
предпринятых или не предприня­тых в
связи с этим. (Существенно.)

Комментарий.
Нормы професси­ональных и педагогических
тестов иногда основаны на разрозненных
выборках тес­тируемых, так как авторы
иногда просят пользователей тестов
прислать результа­ты тестирования
для использования их в последующих
сообщениях о тестовых нор­мах.
Полученные таким образом распреде­ления
подвержены смещениям неизвест­ного
типа и степени. Следовательно, ме­тоды
получения выборок должны быть ясно
описаны.

Е.2.1.3.
Наряду с сообщением числа индивидов,
результаты тестирования ко­торых
были использованы при разработке
нормативных данных, руководство долж­но
также сообщить число выборочных еди­ниц
(например, классов), из которых были
взяты эти индивиды, а также число
инди­видов в каждой единице.
(Существенно.)

Е.2.2. В
руководстве к тесту описание нормативной
группы должно быть доста­точно полным,
чтобы пользователь мог судить о
пригодности для собственного применения.
В описании должно быть ука­зано число
случаев, классифицированных по одной
или более таких переменных, как возраст,
пол, социоэкономический статус,
образовательный уровень. Если взята
обобщенная выборка, в описании
норма­тивной группы должно быть
указано чис­ло отдельных тестированных
групп. (Су­щественно.)

Комментарий.
Для описания нормативных данных в
руководствах час­то используются
классификационные си­стемы в целом.
Например, в руководстве к одной методике
даны сведения для мно­гих профессиональных
и образовательных групп. Однако
отсутствие информации о таких признаках,
как пол, возраст, обра­зование и
уровень опыта, внутри этих групп
существенно уменьшает полезность норм.

Е.2.2.1.
В руководстве должны быть ясно и рельефно
описаны популяции, на основе которых
определены психометри­ческие свойства
теста и для которых при­менимы
нормативные данные. В любом сообщении
о доработке теста должны от­разиться
характеристики нормативных групп,
использованных в интерпретации
результатов. (Существенно.)

Комментарий.
Назначение этого стандартного требования
— предупредить пользователей и
испытуемых относитель­но необоснованных
интерпретаций. Если сообщение о
стандартизации представля­ет
результаты в интерпретации процен-тильных
рангов или стандартных баллов при
последовательном использовании той
же нормативной популяции, будет
доста­точным определение этой
популяции с указанием времени сбора
данных.

Е.2.3.
Если выборка, на основе которой
установлены нормы, мала или, по другим
причинам, ненадежна, в руководстве к
те­сту необходимо ясно предупредить
пользователя относительно возможности
величины ошибок при интерпретации
бал­лов. (Существенно.)

Е.2.4. В
руководстве к тесту нормы по субтестам
или группам заданий сообща­ются
только в том случае, если указана
валидность и надежность таких субтестов
или групп заданий. (Существенно.)

Комментарий.
Пользователь те­ста уверен, что, когда
даны нормы для ча­сти теста, автор
считает их пригодными для интерпретации.
Должна сообщаться также надежность и
валидность таких бал­лов.

Е.2.5. В
руководстве к тесту должны быть описаны
условия, при которых по­лучены
нормативные данные. (Сущест­венно.)

Комментарий.
В случае, когда некоторые аспекты
стандартизированы на группах кандидатов
на работу, другие — на группах,
обратившихся за профконсультацией, а
третьи — на группах, осоз­нающих себя
как испытуемые, то между такими группами
и внутри них индивиды часто различаются
по мотивации выполне­ния теста,
установке к его выполнению, способностям
и личностным характерис­тикам, хотя
точное описание этих разли­чий не
всегда возможно.

Е.3. При
сообщении норм в руковод­стве к тесту
следует пользоваться процен-тилями
для одной или нескольких подхо­дящих
референтных групп или стандарт­ными
баллами, для которых ясно опреде­лено
основание. В руководстве к тесту должны
быть даны меры центральной тен­денции
и рассеивания. (Существенно.)

Е.3.1.
Если тест используется для предсказания,
должны быть приведены, насколько это
возможно, таблицы ожида­ний или
эмпирические таблицы перевода баллов
в уровни вероятности успеха или умения.
(Желательно.)

Е.4.
Для многих применений
теста ло­кальные нормы более важны,
чем опубли­кованные. В таких случаях
руководство к тесту должно давать
возможность исполь­зования локальных
норм. (Очень жела­тельно.)

Е.5. В
руководстве к тесту должны быть полностью
описаны производные шкал, использованные
для стандартизиро­ванных баллов,
чтобы увеличить вероят­ность точной
интерпретации и понимания баллов
интерпретатором теста и испыту­емым.
(Существенно.)

Комментарий.
Целесообразно сократить число производных
шкал до не­скольких, с которыми
пользователи были бы знакомы. Существующее
разнообразие ведет к необходимости
описания таких шкал в каждом руководстве.
Проблема, в частности, в том, что теперь
используют­ся многие различные
системы, не имею­щие логических
преимуществ по сравне­нию друг с
другом. Для преодоления недо­статков
старых методов шкалирования могут быть
предложены новые. Разнооб­разие шкал
для окончательных тестовых оценок
может привести к недоразумениям и
ошибочным интерпретациям, если шка­лы,
рекомендованные для данного теста, не
описаны в руководстве ясно и полно.

Е.5.1.
Построение шкалы на основе нормативных
данных должно быть ясно и недвусмысленно
описано в терминах, пре­дотвращающих
нарушения и интерпрета­ции или
неправильные обобщения. (Су­щественно.)

Комментарий.
Производные оценки могут быть очень
полезны для вы­водов. Однако очень
часто они рассматри­ваются как имеющие
абсолютный смысл независимо от отдельного
теста и норма­тивной популяции.
Примером является коэффициент интеллекта,
который зачас­тую понимается как
просто стандартный балл, который часто
видоизменяется и ин­терпретируется
так, словно он отражает неизменную и
независимую характеристи­ку
испытуемого. Оценки эквивалентности
классу обучения или даже процентильные
ранги также могут интерпретироваться
неправильно, как некие абсолютные
вели­чины, если в руководстве к тесту
не при­ведены характеристики групп,
на которых эти оценки построены.

Е.5.2. В
руководстве необходимо ука­зать,
являются ли стандартные баллы ре­зультатом
линейной или нелинейной трансформации
суммарных баллов. (Су­щественно.)

Е.5.2.1.
Интерпретационных баллов, которые сами
по себе включают суще­ственную
ошибочность интерпретации (оценки
умственного возраста, эквивален­тности
классу обучения и др.) надо избе­гать.
(Очень желательно.)

Комментарий.
Если, несмотря на эту рекомендацию, в
руководство вклю­чены подобные
оценки, необходимо пре­дусматривать
в табличной форме также их связь со
стандартными баллами или процентильными
рангами внутри каждой ка­тегории и
внутри соответствующей нор­мировочной
группы. Например, таблица может отразить
вдобавок к баллу экви­валентности
классу обучения соответ­ствующий
процентильный ранг внутри собственного
возраста или класса испыту­емых для
каждого суммарного балла. Для старших
классов больше подходят нормы внутри
предметов, чем внутри классов.

Е.5.3.
Если в руководстве к тесту пред­полагается,
что процентильные ранги бу­дут
выражаться графически профильной
звездочкой, график должен основываться
на нормальной вероятностной шкале или
на некоторой другой приемлемой
нелиней­ной трансформации. (Очень
желатель­но.)

Е.6. Если
шкалы пересмотрены, добав­лены новые
формы или сделаны другие изменения, в
пересмотренном руковод­стве к тесту
должны быть помещены таб­лицы
эквивалентности старой и новой форм.
(Желательно.)

Комментарий.
Новые формы те­ста должны быть
приравнены к недавно определенным
шкалам стандартных бал­лов других
форм, чтобы пользователь мог быть
уверен, что баллы, предложенные по новым
формам, сравнимы с баллами пре­дыдущих
форм.

Е.6.1.
Если новая форма теста прирав­нена
к старой, в пересмотренном руковод­стве
должно быть описано содержание и старой
и новой форм, а также характер нормативных
групп для них. (Сущест­венно.)

Комментарий.
Изменения в зна­ниях, технологии или
учебном материале могут потребовать,
чтобы новое издание тестов существенно
отличалось от пре­жних, а потребность
преемственности требует приравнивания
окончательных шкал друг к другу.
Пользователь должен иметь возможность
оценить эквивалент­ность в соответствии
с изменениями со­держания, поскольку
у него возникают сомнения, возможно ли
значимое сравне­ние баллов при
изменении содержания.

Е.6.2. В
руководстве должен быть опи­сан метод
установления эквивалентности или
сравнимости оценок и должна быть дана
оценка точности процедуры прирав­нивания.
(Очень желательно.)

Е.7. Если
предполагается, что тест бу­дет
использоваться не столько для оцен­ки
индивидов, сколько групп (например, для
школ или программ), должны быть
представлены нормативные данные,
осно­ванные на суммарных групповых
статис­тиках. (Существенно.)

Комментарий.
Например, неце­лесообразно оценивать
школы применени­ем норм, разработанных
для оценки инди­видов. Также нельзя
вычислять групповые средние по нелинейным
шкалам, напри­мер по процентильным
рангам, выведен­ным для индивидуальных
норм.

Е.8.
Тест, руководство, формы записи ответов
и другие сопровождающие мате­риалы
должны помогать пользователю правильно
интерпретировать результаты теста и
предупреждать неправильное его
употребление. (Существенно.)

Комментарий.
Многие руковод­ства к тестам
подчеркивают переменные, которые
следует учитывать при интерпре­тации
тестовых оценок. Это может быть информация
об учебных достижениях, ре­комендации
или соответствующие анамне­стические
данные.

Е.8.1.
Руководство к средству оценивания
личности может включать данные,
пока­зывающие, что психолог должен
учиты­вать такие факторы, как пол и
возраст субъекта, женаты или разведены
его роди­тели, возраст и пол его детей,
его профес­сиональный и супружеский
статус и т. д.

Е.8.2.
Руководство к тесту должно под­черкнуть
те существенные влияния на тестовую
оценку, которые связаны с реги­оном,
социоэкономическим статусом,
на­циональностью или полом.
(Существен­но.)

Е.9.
Руководство должно обратить вни­мание
пользователя на публикации, с ко­торыми
он должен ознакомиться до тести­рования
для более точной интерпретации
результатов теста. (Очень
желательно.)

Комментарий.
Публикациями могут быть книги или
статьи, относящие­ся к смежным
психологическим теориям или к самому
тесту, о котором идет речь.

Е.10.
Изложение описываемых в руко­водстве
зависимостей по смыслу являет­ся
количественным и должно быть приве­дено
с точностью, которую позволяют дан­ные.
Если данные в поддержку таких ут­верждений
не были собраны, этот факт должен быть
ясно указан. (Существен­но.)

Комментарий.
Авторы, напри­мер, иногда пишут: «Для
инженера-архи­тектора требуется
способность простран­ственного
мышления» или «Необычные ответы могут
указывать на наличие ши­зофрении».
Такие утверждения сами по себе
количественно неадекватны. Какая
частота эксцентрических ответов
указы­вает на уже развившуюся
шизофрению? Насколько успех в архитектуре
зависит от пространственной способности?
Количе­ственные данные, связывающие
тестовые оценки с определенными
критериями, дол­жны помочь получить
ответы.

Е.10.1.
Для сообщения количествен­ной
информации предпочитаются хорошо
известные и легко интерпретируемые
ста­тистические процедуры. Любая
необще­принятая статистическая
техника должна быть объяснена, и должны
быть приведены ссылки на источники.
(Существенно.)

Комментарий.
Издатели не обя­зательно должны
однообразно придержи­ваться процедур,
широко используемых для сообщения
данных, но технологии и процедуры должны
быть довольно извес­тными на практике,
чтобы компетентные пользователи могли
адекватно судить о ре­зультатах.

Это стандартное требование
является конкретизацией принципа, что
представ­ленные в руководстве данные
не должны вводить в заблуждение.
Например, оши­бочно показывать
ценность объединенных в батарею тестов
в уравнении регрессии путем использования
данных с интеркор­реляцией более
низкой, чем о ней сообща­лось в другом
месте руководства.

Е.10.2.
Когда сообщается статистичес­кая
значимость, сообщение должно быть в
форме, которая делает ясным чувстви­тельность
или мощность критерия значи­мости.
(Существенно.)

Комментарий.
Статистическая значимость, не имеющая
практической полезности, часто может
быть получена использованием очень
большого числа случаев. Наоборот, тот,
кто использует не­чувствительный
статистический крите­рий, может
сделать ошибочный вывод об отсутствии
важного в практическом смыс­ле
различия. В общем, при сообщении тестовых
данных более приемлемо опре­делить
доверительный интервал или фун­кцию
правдоподобия интересующего параметра,
а не просто сообщить, что нулевая
гипотеза может или не может быть
откло­нена.

Е.10.3. В
руководстве должны ясно различаться
интерпретация, которая приложима только
к средней тенденции груп­пы, и
интерпретация, приложимая к любо­му
индивиду внутри группы. (Сущест­венно.)

Комментарий.
Некоторые тесты достаточно надежны
для обеспечения от­носительно
стабильного среднего балла группы, но
недостаточно надежны, чтобы обеспечить
использование индивидуаль­ных баллов
или позволить сравнение ин­дивидов.

Е.10.4. В
руководстве должно быть ясно указано,
какая интерпретация отно­сится к
каждому баллу субтеста в той же степени,
как и для всего теста. (Суще­ственно.)

Комментарий.
В руководстве должно быть четко указано,
когда баллы субтестов получены только
для простоты вычисления балла всего
теста и не пред­лагают самостоятельного
использования, когда они могут иметь
исследовательское применение, и
предусматривается ли при этом их
интерпретация.

Е.11.
Составители тестов или другие лица,
использующие ЭВМ для интерпре­тации
тестов, должны предусмотреть ру­ководство,
отражающее алгоритм и свиде­тельства
в поддержку интерпретации бал­лов
на основе ЭВМ. (Существенно.)

Комментарий.
Вычислительная машина позволяет
накопить и воспроизве­сти большое
количество данных. Интер­претация
теста может быть очень об­легчена
использованием банка данных, на­копленных
в ЭВМ на основе совокупнос­ти
индивидуальных оценок по батарее
те­стов или вопроснику личности.

Пользователь таких массивов
должен знать обоснование и свидетельства
в пользу предполагаемой интерпретации,
так как она подвержена ошибкам в той
же степени, как и другие субъективные
ин­терпретации.

Данный пункт относится только к хра­нению
и обработке информации, введен­ной
в ЭВМ.

Проведение тестов
неавтоматизирова­но и осуществляется
обычным способом. В том случае, когда
пользователь хочет автоматизировать
и проведение теста, тест должен пройти
полную психометри­ческую проверку.

Индекс материала
Методы в психолого-педагогической диагностике
Психолого-педагогический эксперимент
Письменный опрос: анкетирование
Тестирование
Контент-анализ
Все страницы

Страница 4 из 5

Тестирование

Тестирование широко используется как в психологии, так и в педагогике. Однако данный метод имеет как общие, так и специфические характеристики для этих двух сфер.
Общим для тестирования является наличие стандартизированных заданий, составленных по определенным правилам. Тесты как инструменты должны отвечать общим требованиям, предъявляемым к их разработке и процедуре использования.
Специфика психологического тестирования заключается в том, что оно проводится с целью диагностирования и в его ходе оцениваются качества личности. Педагогическое тестирование, как правило, используется для диагностики сформированное™ результатов, полученных в процессе обучения и воспитания, — знаний, умений, навыков, а в последнее время — компетенций. Диагностика результатов, полученных в процессе обучения, получила название «дидактический контроль». Для контроля за результатами обучения используются дидактические тесты.
Тем не менее, в педагогической практике нашли широкое применение психологические тесты, позволяющие оценивать отдельные характеристики личности учащихся.
Наибольшую популярность имеют личностные опросники. Это большая группа психодиагностических методик, используемых в педагогической и психологической практике для выявления различных аспектов структуры личности в целях типологизации и характеристики достигнутого уровня развития диагностируемых личностных свойств. В литературе эти методики нередко называются также личностными тестами.
Личностные опросники конструируются в виде серии вопросов, по которым надо высказать собственные оценки или самооценку (в основном — в форме предпочтений определенных суждений, характеристик в альтернативной форме «да — нет», «соответствует — не соответствует» типичному поведению). Подсчет и анализ данных проводится либо по всем заданиям, либо по шкалам.
Рекомендуется формулировать высказывания личностного опросника с учетом следующих правил:
1. Высказывания должны быть по возможности краткими, содержать не больше одного придаточного предложения.
2. Все высказывания должны быть понятны всем обследуемым (сформулированы в простых выражениях с общеупотребительной лексикой).
3. Варианты ответов к каждому высказыванию теста желательно строить с одинаковым числом альтернатив (от 5 до 11), что позволит повысить врабатываемость обследуемого и облегчит обработку результатов.
4. В тесте (опроснике, оценочной шкале) необходимо стремиться к сбалансированному количеству высказываний с позитивными и негативными суждениями, чередуя их в случайном порядке.
5. Следует избегать оборотов с отрицанием «не», предпочтительно что-то утверждать (как позитивное, так и негативное).
6. Каждое предложение должно содержать одно, а не несколько утверждений (иначе затруднительно определить, к какому из нескольких собранных вместе утверждений относится ответ).
Высказывания личностных опросников обладают, по сравнению с вопросами анкет (интервью), рядом сильных сторон: они более соответствуют эмпирическим данным, не требуют переформулировки в вопросы. С помощью высказываний предопределяется позиция суждения, известная точка зрения, что облегчает принятие диагностического заключения. Высказывания действуют косвенно, что при личпостно значимом или интимном характере диагностируемого свойства (явления, формы поведения, мнения) повышает готовность респондента к ответам. Техника построения высказываний как индикаторов проще, их легче собрать в индикаторные комплексы — батареи (что особо важно при исследовании установок); шкалы ответов легче и рациональнее строятся с помощью высказываний, чем с помощью вопросов анкетного типа. Высказывания-индикаторы могут быть выражены несколькими фразами, альтернативами разрешения какой- либо проблемной ситуации.
Стандартизированный тест сопровождается в обязательном порядке руководством к тесту, содержащим основные сведения о нем и рекомендации по организации процедур тестирования, анализу и обработке данных.
Руководство к тесту — основное информационно-методическое обеспечение диагноста. Оно включает в себя следующие элементы:
• полное название теста;
• характеристика его диагностических целей, задач;
• сведения о разработчиках: кто, где работает, ученые степени и звания, иногда — чем известны в науке (являются авторами методик, книг, занимают должности в престижных профессиональных или национальных, международных организациях);
• описание структуры теста (иногда и его спецификация);
• сведения о модернизации (модификациях, версиях) теста, имеющиеся у его издателя;
• сведения о репрезентативности выборки апробации, ее сильных и слабых сторонах (какие подгруппы проектируемого контингента обследуемых отражены хуже или лучше);
• сведения о надежности и методах ее проверки (в том числе применительно к подгруппам обследованного контингента);
• сведения о валидности содержательной (соответствие содержания теста измеряемой области психических свойств или дидактических целей), критериальной (соответствие результатов обследования показателям и критериям измеряемого свойства), локальной (соответствие результатов обследования результатам для категорий людей, имеющих общий признак,- возраст, пол, успеваемость и др. или статистические параметры), конкурентной (соответствие результатов обследования результатам, полученным с помощью других стандартизированных тестов);
• указание степени секретности тайны результатов и диагноза;
• нормативы (обычно с кратким описанием процедур их выработки или даже с приложением исходных таблиц, обязательно — со ссылками на литературу, в которой отражены методологические исследования такого типа по данному тесту). Нормативы в хороших стандартизированных тестах даются не только по всему контингенту (обычно для возрастных групп или года обучения в школе), но и по специфическим подгруппам, например, национальных меньшинств, мальчиков и девочек. Это считается показателем добросовестности составителей теста, их внимания к пользователю.
В руководство теста часто включают данные о возможном распределении возрастания показателей при тестировании параллельными формами. Большинство применяемых стандартизированных тестов составлялось еще в докомпьютерную эпоху, поэтому рядом с нормативами обычно приводятся подробно описанные процедуры обработки результатов тестирования (с формами таблиц, графиков представления данных, технологией перевода «сырых» баллов в оценочные по шкалам субтестов и по тесту в целом). Хорошее руководство к тесту фиксирует внимание пользователя- диагноста на типичных противоречиях в ответах или особо симптоматичных для целей диагностики данных (наиболее информативных показателях). Многие стандартизированные тесты имеют свои компьютерные версии и почти все современные тесты — компьютерные программы обработки. Обычно компьютерные версии тестов предлагаются отдельно. Поскольку за рубежом, например в США, в большинстве штатов приняты законы об аттестации и лицензии психологов, применяющих тесты, в руководстве теста указывается необходимый уровень квалификации пользователя. Обычно требуется степень доктора философии (в бывшем СССР это уровень кандидата психологических наук) плюс определенное знакомство с практической деятельностью и удовлетворительная сдача квалификационного экзамена.

Метод экспертных оценок

Данный метод обеспечивает «внешний» взгляд на характеристику поведения учащегося.
Метод имеет широкий возрастной диапазон.
Заполняется экспертный лист.
Экспертная оценка часто используется в работе судей на спортивных соревнованиях, а также в работе жюри на артистических конкурсах. В настоящее время под экспертным методом понимается любая процедура, с помощью которой производится классификация объектов или оценка степени выраженности какого-либо качества путем опроса экспертов, т. е. лиц, хорошо разбирающихся в существе дела и способных достаточно четко и адекватно выражать свои мнения . Как правило, говоря об экспертных оценках, имеют в виду работу группы экспертов, по не исключаются случаи, когда экспертная оценка осуществляется одним специалистом.
Сущность метода экспертных оценок заключается в проведении субъективного интуитивно-логического анализа проблемы с количественной оценкой и формальной обработкой результатов. Полученное в результате обработки обобщенное мнение экспертов принимается как диагноз.
Педагогической экспертизой называется совокупность процедур, необходимых для получения коллективного мнения в форме экспертного суждения (или оценки) в педагогическом объекте (явлении, процессе).
Экспертные методы не являются формальными. В них остается широкое поле для творческой импровизации, где опыт и интуиция преобладают над строгими измерениями. Результаты работы экспертной группы неизбежно будут содержать отпечаток субъективизма, вносимого как самими экспертами, так и организаторами экспертного опроса.
В психолого-педагогической диагностике используются следующие экспертные методы.
Индивидуальная экспертная оценка — субъективное оценивание сформированное™ качеств личности отдельных учащихся или группы, педагогов.
Рейтинг — оценивание экспертами успешности деятельности, уровня воспитанности.
Метод самооценки — оценка субъектом собственных способностей, личностных качеств.
Метод психолого-педагогического консилиума — коллективное оценивание и диагностика учебных способностей учащихся.
Метод экспертных оценок применяется при оценке учебных действий, уровня развития личностных качеств; при прогнозировании успешности деятельности, способностей и т. п.
Метод групповых экспертных оценок — коллективная экспертная оценка психолого-педагогических явлений. В групповой экспертной оценке экспертами могут выступать педагоги, специалисты различных профессий (психолог, медицинский работник, дефектолог идр.), учащиеся, их родители, близкие друзья и знакомые, т. е. люди, хорошо знающие обследуемого.
Задача экспертов — характеристика личностных качеств учащегося и отнесение его к определенной категории людей.
Достоинством метода является возможность учета множества таких данных, которые не поддаются кодированию для обработки согласно составленной математической модели.
Недостатком метода является зависимость правильности поставленного диагноза от компетентности специалистов, проводящих обследование.
Преодоление трудностей метода, обусловленных его качественно-интуитивным характером, происходит за счет унификации диагностических процедур и разработки широкого ассортимента стандартных психометрических шкал, что позволяет минимизировать субъективные суждения там, где они оказываются слишком произвольными, неточными, ненадежными.
К разновидностям метода групповых экспертных оценок относят метод комиссии, метод Дельфи, метод мозгового штурма, метод эвристического прогнозирования и метод обобщенных независимых характеристик.
Вопрос о компетентности членов экспертной комиссии чаще всего решается путем установления соответствия знаний оцениваемой области, например профессиональной подготовки и личного опыта.
В ходе экспертизы проводится точное протоколирование высказываемых мнений. При этом в работе экспертных комиссий допускается, что мнение одного эксперта не совпадает с диагнозами других экспертов.
При проведении экспертной оценки придерживаются следующих правил:
1. Содействие всестороннему ознакомлению эксперта с информацией его сферы компетентности.
2. Обеспечение достоверности дополнительной информации, используемой экспертом.
3. Содействие формированию мнений, которые определялись бы только свойствами диагностируемого человека, личными профессиональными знаниями, опытом и интуицией экспертов.
Для любой экспертизы обязательными являются две фазы — изучение экспертами объекта экспертизы и формулирование индивидуальных суждений, затем производится обработка полученных результатов с целью определить коллективную оценку.

Анализ документации

Для психолого-педагогической диагностики особый интерес представляют такие педагогические документы, как классные журналы, дневники учащихся, тетради учащихся, письменные и контрольные работы учащихся, протоколы собраний, учебно-программная документация, дидактические материалы и др.
Анализ педагогических материалов часто используют для выяснения:
• отношения учащегося к какому-либо явлению учебной жизни, например, к изучаемому учебному предмету (ведение записей в тетради); отношения к другим учащимся (эссе на тему дружбы) и др.;
• уровня развития учащегося, например, сложность и скорость решения задач позволяет установить уровень умственного развития, эссе — уровень нравственного развития и т. п.;
• уровня обученности учащегося, например, высокие оценки по различным предметам позволяют оценить качество подготовки по тому или иному учебному предмету, а также уровень сложности выполняемых учащимся заданий и др.;
• уровня воспитанности учащегося, например, отсутствие опозданий на учебные занятия свидетельствует о наличии дисциплинированности, высокий рейтинг свидетельствует об ответственном подходе к учебной деятельности и др.
При анализе информации, представленной в документах, нужно относиться к ней критически, так как она может быть не всегда объективной. Поэтому надо уметь оценивать адекватность и достоверность документов. Прежде всего нужно выяснить, какие критерии использовались при оценке той или иной характеристики учащегося. Кроме того, следует помнить о защите персональных данных. Поэтому к личной информации следует относиться осторожно и деликатно.

Разработка тестов

по учебной дисциплине

Методические рекомендации

для преподавателей

                 Методические рекомендации содержат
основные требования к разработке тестов для  проведения внутреннего аудита
качества профессиональной подготовки обучающихся, образцы тестовых заданий,
перечень типичных ошибок, допускаемых преподавателями при составлении тестов. Предназначены
для преподавателей – составителей тестов. Методические рекомендации могут быть
полезны при разработке тестов для обучающихся учреждений начального, среднего и
высшего профессионального образования.

СОДЕРЖАНИЕ

Введение

  • Педагогический
    тест как контрольно-измерительный материал
  • Этапы
    и общие требования к разработке теста
  • Виды
    тестовых заданий
  • Типичные
    ошибки, допускаемые при составлении вопросов к тесту
  • Внутренняя
    экспертиза теста
  • Оформление
    тестового материала и подготовка его к компьютерному варианту тестирования

Словарь
терминов

Список
рекомендуемой литературы

ВВЕДЕНИЕ

В связи с
модернизацией современного высшего образования, с введением ФГОС третьего
поколения, возрастают требования к повышению качества педагогического контроля,
ведется поиск его лучших форм и методов, его экономичности, оптимизации. Оценка
качества образования также на сегодняшний день является наиболее приоритетной
проблемой в образовательной деятельности. Новый стандарт предполагает также 
переход на рейтинговую систему контроля и оценки знаний слушателей, в связи с
этим большое значение приобретает измерение результатов усвоения программного
материала.

Мониторинг
качества образовательной системы предполагает, прежде всего, регулярный сбор и
обработку информации об уровне профессиональных знаний, умений студентов. Одним
из основных инструментов оценки качества уровня обученности студентов является
тестирование вообще и компьютерное тестирование в частности, позволяющие дать
достаточно объективную нормативно-ориентированную оценку учебных достижений
обучающихся.

Каким содержанием наполнено понятие
«педагогический тест»? Какие классификации педагогических тестов существуют, и
какие критерии применяются для оценки качества педагогических тестов? В чем
преимущество тестовых форм контроля в процессе обучения? Что понимается под
термином «тестовое задание», и какие правила необходимо соблюдать при
составлении тестовых заданий? Как составить  тестирование обучающихся при
подготовке к   внутреннему тестированию в рамках внутривузовской проверки
качества профессиональной подготовки? Ответы на эти вопросы, а также конкретные
образцы тестовых заданий разного вида представлены в данном учебно-методическом
издании.

Педагогический
тест как контрольно-измерительный материал

Педагогический тест 
является наиболее распространенным  контрольно-измерительным материалом в современном
образовательном процессу в вузе. Педагогический тест — это совокупность
заданий, отобранных на основе научных приемов для педагогического измерения в
тех или иных целях.

Педагогический тест рассматривается как система, как
упорядоченное множество тестовых заданий. Задания — это те элементы,
«кирпичики» из которых составляется педагогический тест.

Почему именно тестирование
становится все более массовым явлением в процессе педагогического оценивания?

Опыт
использования тестов в качестве  инструмента для оценивания позволяет выделить
многие его преимущества, в частности, тест:

·       это
более качественный и  объективный способ оценивания, что достигается путем
стандартизации процедуры проведения (отсутствие субъективной оценки на всех
этапах тестирования) и стандартизации заданий;

·       более
емкий инструмент – показатели тестов ориентированы на измерение степени,
определение уровня  усвоения ключевых понятий, тем и разделов учебной
программы, умений, навыков, а не на констатацию наличия у обучающихся определенной
совокупности усвоенных знаний;

·       позволяют
включить в экзаменационную работу гораздо большее количество заданий;

·       это
более «мягкий»  инструмент, они ставят всех испытуемых в равные условия,
используя единую процедуру и единые критерии оценки, что приводит к снижению
нервного напряжения;

·       широкий
инструмент –  и с точки   зрения интервала оценивания;

·       более
эффективен с экономической точки зрения, так как при тестировании основные
затраты приходятся на составление качественного инструментария.

Было бы конечно
большой ошибкой считать, что педагогическое тестирование свободно от
недостатков. Применение педагогических тестов – эта та область знаний и умений,
которая поддается формализации. Но далеко не все учебные дисциплины или их
разделы формализуемы.

К недостаткам тестов следует отнести то, что тестовый
контроль лишает возможности слушателей самостоятельно формулировать ответы,
отсутствует возможность проявить свою индивидуальность, творчество.

Но
самый большой недостаток – это сложность разработки хороших тестовых заданий,
хотя на первый взгляд кажется, что с этим никаких трудностей быть не должно,
ведь тестовые задания разрабатываются преподавателями, хорошо знающими свой
предмет. На самом деле разработка педагогических тестов требует высокой
педагогической квалификации, научной компетенции и большого методического опыта
составления тестов преподавателем. В этой связи необходимо самое пристальное
внимание уделять повышению качества тестовых заданий.

    При проведении тестирования учитываются три
критерия качества теста: надежность, валидность и объективность.

Надежность теста – критерий отражающий точность диагностических
измерений, а также устойчивость результатов теста к действию посторонних
случайных факторов. Надежность педагогического теста позволяет при его
применении в разных группах обучающихся с близким уровнем подготовки получать
примерно одинаковые результаты. Результат педагогического тестирования обычно
подвержен влиянию большого количества неучитываемых факторов (например,
эмоционального состояния и утомления, уровня мотивированности тестируемых и
др.). Любое изменение ситуации тестирования усиливает влияние одних и ослабляет
воздействие других факторов на результат теста.

В самом широком смысле надежность педагогического
теста – это характеристика того, в какой степени выявленные у слушателей
различия в уровне знаний по тестовым результатам являются отражением
действительных различий в измеряемых свойствах и в какой мере они могут быть
приписаны случайным ошибкам.

В более узком смысле, связанном с непосредственными
методами определения характеристик надежности, под этой группой показателей
понимают степень согласованности результатов теста, получаемых при первичном и
повторном его применении, по отношению к тем же тестируемым в различные моменты
времени, с использованием разных (но сопоставимых по характеру) наборов
тестовых заданий или при других измененных условиях тестирования.

Важнейшим средством повышения надежности
педагогических тестов является стандартизация процедуры тестирования.
При строгой регламентации процедуры тестирования (обстановка и условия работы
слушателей, характер инструкции, временные ограничения, способы и особенности
контакта со слушателями, порядок предъявления тестовых задач и т.д.)
существенно уменьшается дисперсия ошибки и повышается надежность теста. При
прочих равных условиях надежность теста зависит от числа заданий (длины теста) 
– чем длиннее тест,  тем он надежнее.

Валидность теста – это критерий, который определяет, что тест
измеряет и насколько хорошо он это делает. В понятии валидности отражается идея
соответствия педагогического тестирования его цели. Интуитивно все понимают,
что одно и то же можно проверять по разному. Отсюда возникает вопрос поиска
наиболее подходящего (валидного) средства, полнее, чем другие, удовлетворяющего
требованиям качества проверки.

В педагогических тестах наиболее важным типом
валидности является валидность по содержанию. При проверке
содержательной валидности речь идет об определении степени соответствия
содержания тестовых заданий содержанию учебного предмета, успешность усвоения
которого тестируется, то есть решается вопрос о том, в какой степени задачи
данного диагностического контроля успеваемости репрезентативны для содержания
учебной программы.

Для обеспечения валидности педагогического теста
требу-ется систематическая проверка того, насколько задания теста охватывают
все главные аспекты учебной программы и в правильной пропорции. Тест легко
перенасытить теми аспектами учебной программы, по которым легче составить
объективные задания. Поэтому рассматриваемое содержание следует фиксировать
заранее, а не после того как тест уже составлен. Правильно построенные
педагогические тесты должны соответствовать не только предмету обучения, но и
его задачам. Содержание, следовательно, необходимо определять достаточно
широко, включая в него помимо знания фактического материала такие важнейшие
цели обучения, как применение изученных принципов и интерпретацию данных.
Валидность также обеспечивается распределением тестовых заданий различной трудности
пропорционально уровню трудности учебного материала.

Валидность по содержанию закладывается в тест уже при
отборе соответствующих заданий. Для педагогических тестов
подготовке их заданий предшествует
полная систематизированная проверка соответствующих учебников и учебных
программ, а также консультации со специалистами по данному предмету.
На основе собранной таким путем информации
составляется спецификация теста для тех, кто будет составлять задания. В
спецификации указываются тестируемые области содержания (темы), задачи
(процессы) обучения, а также относительное значение каждой темы и процесса. На
этой основе по каждой теме устанавливается число заданий различных типов.
(Более подробно вопрос составления спецификации будет рассмотрен ниже).

Надежным средством обеспечения валидности теста
является экспертная оценка тестовых материалов, которая проводится экспертами
из числа наиболее квалифицированных специалистов-предметников и специалистов в
области тестирования. Конкретные задания оцениваются экспертами по принципу их
близости к реальным требованиям. Эксперты выносят суждение о том, охватывает ли
тест репрезентативную выборку конкретных навыков и знаний исследуемой области
обучения.

Валидность по содержанию является адекватным средством
оценки педагогических тестов. Она позволяет установить, охватывает ли тест
репрезентативную выборку конкретных навыков и знаний и свободно ли выполнение
теста от влияния посторонних факторов.

Следующий важный критерий качества педагогического
тестирования — объективность, то есть независимость получения и
интерпретации диагностических данных от преподавателя. Объективность
педагогического тестирования является важным синтезирующим критерием,
включающим в себя идеи надежности, валидности, кроме того, ряд аспектов педагогического
и этического характера.

Педагогический аспект повышения объективности
педагогического тестирования проявляется в использовании стандартных тестовых
программ, технических средств контроля, в первую очередь использование
компьютерных технологий в организации проведения педагогического тестирования.

Этический аспект объективности охватывает широкую
область морального регулирования. Результаты педагогического теста могут
оказаться полностью или частично неадекватными поставленной цели, если допускается
списывание, подсказки со стороны слушателей, репетиторство (но не всякое, а
«натаскивание»), снисходительность или, наоборот, чрезмерная требовательность
преподавателей.

Таким образом, результаты педагогического теста
зависят от соблюдения всех вышеназванных требований, которые обеспечивают
получение адекватных и достоверных оценок знаний слушателей.

2.
Этапы составления и общие требования к разработке теста

    В данном разделе представлены
основные этапы составления теста.

В разработке педагогических тестов можно выделить три
этапа: планирование, написание заданий и анализ заданий (см. Рис.1).

Перед разработкой теста необходимо четко иметь
представление о требованиях к знаниями, навыкам и умениям обучающихся по данной
учебной дисциплине. Эти требования определены в соответствующих Государственных
образовательных стандартах, предметных квалификационных характеристиках и
типовых учебных программах. Первый шаг в планировании теста – это анализ данных
документов. Задания теста должны в полной мере выявить степень овладения
требуемыми знаниями, навыками и умениями.

Составитель теста, начинающий с написания задания,
скорее всего, создаст узконаправленный тест. Без предварительного плана
некоторые темы изучаемого предмета могут занять слишком много места, в то время
как другие останутся незатронутыми.

Рисунок 1 . Этапы разработки теста

Во избежание несбалансированности и диспропорции
охватываемых тестом тем составлению заданий должна предшествовать разработка
его спецификации.

Спецификация теста является обязательной операцией
эмпирического анализа теста и необходимым условием создания нового теста.
Спецификация заключается в том, что строится таблица, в которой указываются:

·        
номера заданий и их
принадлежность к субтестам;

·        
направленность заданий;

·        
сложность, трудоемкость,
вес заданий;

·        
какую из характеристик
каждое из заданий конкретно диагностирует.

При подготовке тестов подобную спецификацию следует
начать с описания целей изучения данного предмета, а также охватываемого этим
предметом содержания. Перечисляя цели, создатель теста должен спросить себя, к
каким изменениям в поведении ведет освоение изучаемого предмета: скажется ли
оно на привычных способах работы, на способе решения задач, на способностях,
интересах и других характеристиках, а также на приобретении и развитии
интеллектуальных навыков.

В табл.1 приведена спецификация теста по дисциплине «Зоогигиена
с основами проектирования животноводческих объектов», состоящего из 116 заданий.
В левой колонке перечислены 11 тем, или содержательных категорий, которые
должны быть охвачены тестом. В верхней части таблицы приведены также 4
тестируемые учебные цели или типа обучения. Вся таблица дает предоставление о
желательном числе заданий относительно содержания и целей обучения. Число
заданий соответствует важности и широте каждой темы и целям ее изучения. Если
конкретная цель или тип обучения данной темой не затрагиваются, то задание в
соответствующей клетке таблицы отсутствует. В вертикальных и горизонтальных
рядах таблицы представлены относительный вес каждой темы и цели обучения во
всем тесте. Часто эти веса устанавливаются заранее, что позволяет
проконтролировать охват заданием тем и целей обучения, не устанавливая сквозную
классификацию индивидуальных заданий.

Таблица 1

Пример спецификации теста по дисциплине

«Зоогигиена с основами проектирования
животноводческих объектов»

Изучаемое содержание

Учебные цели

Всего

Знание основных терминов

Понимание целей и принципов

Навыки по мониторингу и оценке

Расчет и управление параметрами

1.Предмет и задачи гигиены и зоогигиены, как раздела медицины и
ветеринарной медицины

3

2

5

2.Факторы природно- территориального комплекса и их влияние на
здоровье и продуктивность. Понятие микроклимата и его составляющие

5

4

3

12

3.Зоогигиенические требования к почве и санитарная охрана её от
загрязнения

4

4

4

12

4.Зоогигиеническое значение воды. Гигиена водоснабжения и поения
сельскохозяйственных животных

3

3

3

3

12

5.Гигиенические требования к кормам и кормлению с. х. животных

4

2

2

2

10

6.Требования к санитарно- техническому оборудованию животноводческих
помещений для разных видов с.х.  животных

4

2

2

2

10

7.Гигиена содержания крупного рогатого скота

5

5

3

2

15

8.Гигиена содержания  свиней и птицы

3

3

2

2

10

9.Гигиена содержания овец

3

3

2

2

10

10.Гигиена содержания лошадей

3

3

2

2

10

11.Гигиена содержания кроликов и пушных зверей

3

3

2

2

10

ИТОГО

40

34

25

17

116

          Исходным моментом составления
тестовых заданий является выделение общей цели, преследуемой тестовым заданием.
Такие цели должны предусматривать требование от обучаемого:

а) простого воспроизведения знаний, анализа и
сравнения данных. Постановка таких вопросов в заданиях позволяет проверить
усвоение слушателями материала на уровне запоминания, тренирует память;

б) анализа признаков понятия. При этом выявляется
умение обучаемых находить общее и специфическое в изучаемом материале, отделять
существенные признаки от несущественных, родовые от видовых, способствует
развитию аналитического мышления;

в) умения распознавать схемы, рисунки;

г) понимания функций, выполняемых различными органами
(звеньями, приборами, устройствами и т.п.), и процессов взаимодействия между
этими органами. Вопросы такого типа позволяют проверить умение слушателя
вскрывать определенные причинно-следственные связи и отношения, оценивать роль
и значение данного органа для процессов, происходящих во всей системе;

д) приведения в логическую последовательность
элементов множества, расположенных в беспорядке, т.е. умения решать
определенного класса задачи, требующие обнаружить последовательность
расположения элементов в информационном ряде объектов, тактических приемов,
например, в следственном действии либо оперативно-розыскном мероприятии;

е) творческого подхода к рассматриваемым проблемам и
вопросам, умения применять полученные знания в условиях той или иной ситуации.

При создании
тестов для проверки остаточных знаний на основании ФГОС ВПО по соответствующей
дисциплине или для проверки итоговых знаний студента на основании программы
дисциплины прежде всего определяется область содержания теста и цели
тестирования. План теста для промежуточного контроля знаний должен охватывать
знания, умения и навыки по одной или нескольким дидактическим единицам, для
итоговой аттестации – по всем дидактическим единицам дисциплины в соответствии
с программой дисциплины, для проверки остаточных знаний по всем дидактическим
единицам дисциплины в соответствии с ФГОСом по специальности.

Преподавателю следует ориентироваться на следующие
принципы отбора содержания тестовых заданий для тестов:

1. Содержание теста должно
соответствовать содержанию учебной дисциплины. Задания теста должны в
правильной пропорции охватывать все важные аспекты области содержания.

2. Необходимо включение в
тесты только наиболее важных, базовых знаний, выражающих сущность, содержание,
законы и закономерности рассматриваемых явлений. Все спорные точки зрения,
допустимые в научном споре, следует исключить из тестовых заданий.

3. Каждый учебный элемент
должен иметь некоторую усредненную меру трудности, которую необходимо учитывать
в процессе контроля знаний.

Эксперты,
определенные на кафедре, оценивают соответствие заданий области содержания и
целям тестирования. Проводится внутреннее пробное тестирование преподавателями
кафедры. Осуществляется предварительная корректировка теста. Определяется время
тестирования студентов. Рекомендуемая продолжительность ответа на тестовое
задание составляет 1,5 минуты.

На основании анализа
статистических параметров по каждому заданию и тесту в целом производится
повторная корректировка теста – удаляются неудачные задания, если необходимо —
составляются новые.

        Производится выбор
стандартов оценивания экспертными и эмпирическими методами. Выполняется оценка
надежности теста и содержательной валидности (соответствия заданий содержанию
дидактических единиц). Составляется окончательный вариант теста и его
параллельных форм. Тиражируется сам тест и связанный с ним материал (если
используется бумажный вариант тестирования). При подготовке теста к 
компьютерному тестированию  готовится бумажный и электронный вариант теста и
заносится в тестовую оболочку программистом компьютерного класса.

Виды
тестовых заданий

Существует ряд требований к тесту организационного
характера:

  • тестирование осуществляется главным образом через
    программированный контроль, никому не дается преимуществ, все отвечают на
    одни и те же вопросы в одних и тех же условиях;
  • оценка  результатов производится по ранее
    разработанной шкале;

·                    
применяются необходимые меры, предотвращающие искажение результатов
(списывание, подсказку и утечку информации о содержании тестов)

При разработке теста целесообразно
использовать различные виды тестовых заданий. В частности:

·        
Задания с выбором одного правильного ответа (ВО)

·        
Задания с выбором нескольких правильных ответов (МВ)

·        
Задания на установление правильной последовательности (УП)

·        
Задания на установление соответствия (УС)

·        
Задания с кратким ответом (КО)

Общие требования к
тестовым заданиям разного типа

·        
Текст задания должен исключать всякую двусмысленность и неясность
формулировок.

·        
Текст задания формулируется предельно кратко, т.е.
освобождается от всякого
постороннего для данной
проблемы материала. Текст задания должен иметь предельно простую синтаксическую
конструкцию.

·        
В задании не используются слова, вызывающие различное
понимание у испытуемых, а
также слова, являющиеся
подсказкой, например, «иногда», «часто», «всегда», «все», «никогда».

·        
В заданиях, носящих составной характер, необходимо обеспечить
такую
последовательность, чтобы правильность выполнения одного
задания не зависела от правильности выполнения другого задания данной группы.

·        
В тексте задания исключается двойное отрицание.

·        
Задания должны быть направлены на проверку значимых элементов
содержания, а не
тех, которые проще формулируются или просты в обработке.

·        
Используемая в заданиях терминология не должна выходить за
рамки учебной
литературы, используемой в вузе

Требования
к дистракторам :

·       
По возможности, не следует делать ответы длинными;

·       
Одно и то же слово (или словосочетание, или однокоренное
слово) не должно находиться в тексте задания и правильном ответе;

·       
Все ответы должны быть подобными (аналогичными, похожими),
это касается и их внешнего вида, и грамматической структуры.

·       
В вариантах ответа на задания желательна краткость;

·       
Ответы на основу задания должны быть сформулированы
достаточно просто, чтобы были понятны существенные различия между ними;

·       
Каждый дистрактор должен быть правдоподобным, внушающим
доверие, вполне убедительным и привлекательным для  экзаменующихся;

·       
Правильный ответ должен быть ясен, краток, правилен и
свободен от подсказок (как внутри текста задания, так и вне его);

·       
Ответы должны быть одинаковы по длине (хотя бы
приблизительно), не следует формулировать правильный ответ заметно длиннее или
короче, чем дистракторы;

·       
В дистракторах не следует использовать слова или технические
термины, которые экзаменующийся не может или не должен знать;

·       
При формулировке дистракторов не следует использовать
выражения: «ни один из перечисленных», «все перечисленные» и т.д., так как они
способствуют угадыванию правильного ответа;

·       
Из дистракторов, как правило, исключаются все повторяющиеся
слова путем ввода их в основной текст задания;

·       
Все ответы должны быть грамматически согласованными с
основной частью задания;

·       
Если ответ выражен в виде числа, то, как правило, эти числа
располагаются от меньшего к большему или наоборот.

Далее представлены  требования к содержанию тестовых заданий
разного типа.

Задания
с выбором одного верного ответа
(ВО)

Общие
требования

— Формулировка основной части задания, должна быть
законченной

— В заданиях базового уровня в ответы целесообразно включать
не более двух-трех важных, ключевых слов, при этом правильный ответ не должен
отличатся какими-либо формальными признаками от неправильных ответов
(дистракторов).

— В заданиях базового уровня не должно требоваться выбрать
один НЕПРАВИЛЬНЫЙ ответ при наличии нескольких правильных.

— Из текста задания исключаются все словесные ассоциации,
способствующие выбору правильного ответа с помощью догадки.

— Если имеется задание с отрицаниями, то частицу НЕ или
слово, выражающее отрицание, необходимо выделить в тексте (жирным текстом с
подчеркиванием).

— Задания должны иметь одинаково правдоподобные дистракторы
(ответы), одинаково привлекательные для выбора.

— Исключаются ответы, вытекающие один из другого или
дополняющие друг друга.

Задания с выбором одного
верного ответа (ВО)

Примеры заданий:

Функция живого вещества, связанная с преобразованием
физико-химических параметров среды, называется …

A.     
средообразующей

B.     
транспортной

C.     
деструктивной

D.     
концентрационной

Различные типы заданий с
выбором ответа

Примеры заданий ВО
в повествовательной форме ( в виде суждений)

Аппаратом
сухой, инерционной очистки газов от пыли является…

1)
циклон

2)
скруббер

3)
волокнистый фильтр

4)
электрофильтр

Регулярное
наблюдение и контроль за состоянием окружающей среды;

определение
изменений, вызванных антропогенным воздействием,

называется
экологическим …

1)
мониторингом

2)
аудитом

3)
страхованием

4)
нормированием

Задания на отрицание

В архейскую эру НЕ существовало…

A.      беспозвоночных
животных

B.      цианей

C.      анаэробных
бактерий

D.      одноклеточных
водорослей

Примеры заданий с
рисунком

Об экологической чистоте 
товара и о безопасности его для человека и окружающей среды указывает знак
экологический маркировки…

На представленном рисунке
показана схема…

1)оборотного
водоснабжения ГЭС

2) очистки газовых выбросов ТЭС

3) работы АЭС

4)    очистных
сооружений ЦБК

Примеры заданий 
формы
множественный выбор «два из пяти»
(МВ):

К цветковым растениям относятся…

A.      одуванчик
лекарственный

B.      рябина
обыкновенная

C.      ель
европейская

D.      сосна
обыкновенная

E.       плаун
булавовидный

Примеры
заданий  формы
множественный выбор «три
из шести»(МВ):

В.И.
Вернадский выделял такие виды веществ в биосфере, как…

1)
живое

2)
косное

3)
биоксное

4)
твердое

5)
мертвое

6)
автотрофное

Пример задания
формы
установление последовательности (УП):

Расположите биоценозы в
той последовательности,  в которой они сменяют друг друга в процессе сукцессии…

1)
пожарище

2)
кустарник

3)
смешанный лес

4)
ельник

Установите правильный порядок действий при выделении
хлоропластов методом центрифугирования…

1)
поставить центрифужные пробирки в центрифугу

2)
измельчить лист растения ножницами

3)
растереть растительную навеску в ступке при помощи пестика

4)
уравновесить центрифужные пробирки

5)
включить центрифугу на определенное время и определенное количество оборотов

Задания
на установление соответствия (УС)

Общие
требования

Задания
контролируют умение установить соответствие между объектами или
процессами
и описанием их свойств и признаков.
Задания на установление
однозначного или множественного соответствия
начинаются
со слов: «Установите соответствие…».

Задание
формулируется так, чтобы содержание можно было выразить в виде
двух
множеств с соответствующими названиями.
Элементы первого
столбца обозначаются цифрами и располагаются слева, а
элементы
второго обозначаются буквами русского алфавита и располагаются справа. 
Для
каждого столбца вводится определенное название, обобщающее все
элементы
столбца. Название столбца записывается заглавными буквами.
Элементы
столбцов должны быть выбраны по одному основанию.Для заданий на однозначное
соответствие необходимо, чтобы второй
столбец содержал
не менее одного дистрактора.

Для
всех учебных предметов используется одинаковый формат ответов,
представленный
ниже.

 

Пример задания 
формы УС:

Установите соответствие
между группами растений по отношению к свету и признаками растений:

                             ПРИЗНАКИ

ЭКОЛОГИЧЕСКИЕ ГРУППЫ РАСТЕНИЙ

1) 
Имеют темно-зеленый цвет;

А) 
Светолюбивые

2) 
Не выносят малейшего затенения;

Б)  
Тенелюбивые.

3) 
Процесс фотосинтеза преобладает над дыханием;

4)Не
выносят сильной освещенности;

5) 
Растут под пологом леса;

6) 
Обитают на освещенных местах.

Задания
открытой формы

Общие
требования

В заданиях открытой формы
не используются готовые варианты ответов. В них испытуемому нужно дополнить
недостающее слово (группу слов, формулу, число, знак и др.), которое
свидетельствует о его знании. 

    Существует большое
разнообразие типов заданий в открытой форме.

    Задания открытой формы подразделяются на задания с
коротким ответом и задания с развернутым ответом или эссе.

    В практике массового педагогического тестирования в
основном применяются следующие модификации заданий открытой формы:

·    задания
с коротким ответом (КО);

·    задания
на завершение утверждения (ЗУ);

·    задания
на заполнение пробела (ЗП);

·    задания
на завершение (или на конструирование) графического объекта (диаграммы,
графика, схемы).

Примеры
заданий  формы КО:

1). Если ПДК нитратов для
человека составляет 3,05 мг/кг в сутки, то для человека массой 68 кг допустимо
поступление в организм этих веществ до ___ мг.

Ответ: 207

2). Если норматив платы
за выброс 1 тонны фенола в атмосферу в пределах установленных лимитов
составляет 3,415 тыс. руб., то при выбросе предприятием 22 тонн данного
загрязняющего вещества, выплаты составят ______ тыс. рублей.

Ответ: 75

Задания на завершение утверждения

Представленный ниже график иллюстрирует
закон _________________.

Изображенная на рисунке модель
иллюстрирует закон _______.

Типичные
ошибки, допускаемые при

составлении
вопросов к тесту

         При составлении тестовых
заданий разработчикам следует не только придерживаться определенных правил к
формулировке заданий, правильных ответов и дистракторов, но и избегать
основных, наиболее типичных неточностей и ошибок при их написании. Наиболее
часто встречаются следующие нарушения требований и определенных критериев при
написании тестовых заданий.

         Следует избегать составлять
задания, которые
проверяют
больше чем одну идею, проблему, концепцию. При этом в правильном ответе и
дистракторах не должно содержаться разное количество элементов ответа:

                Важнейшими экологическими
последствиями глобального загрязнения атмосферы являются

1) кислотные
осадки и парниковый эффект

2)
демографические параметры

3)
извержения вулканов

4)
естественные сукцессии

          В
правильном ответе и дистракторах  содержится разное количество элементов
ответа:

В ходе световой фазы фотосинтеза
происходит…

1) фотолиз воды и выделение свободного кислорода

2)
фиксация углекислого газа

3)
использование энергии АТФ

4)
синтез глюкозы

К
липидам относятся…

1) стероиды, терпены, воска и фосфолипиды

2)
только стероиды

3)
только терпены

4)
только фосфолипиды

Из
дистракторов, как правило, исключаются все
повторяющиеся
слова путем ввода их в основной текст задания, например:

Неправильно

Правильно

Области
концентрации живого вещества на границе двух сред обитания В.И. Вернадский
назвал …

1)
узлами
жизни

2)
очагами
жизни

3)
рубежами
жизни

4)
точками
жизни

Области концентрации живого вещества на
границе двух сред обитания В.И. Вернадский назвал _____________ жизни.

1)
узлами

2)
очагами

3)
рубежами

4)
точками

Часть
ответа лучше вынести в вопрос, например:

Неправильно

Правильно

Для изучения тонкой структуры клеточных
органелл  наиболее эффективным оказался метод …

1)
электронной просвечивающей
микроскопии

2)
электронной сканирующей
микроскопии

3)
флуоресцентной
микроскопии

4)
световой
микроскопии

Для изучения тонкой структуры клеточных
органелл

наиболее
эффективным оказался метод ________ микроскопии.

1)
электронной просвечивающей

2)
электронной сканирующей

3)
флуоресцентной

4)
световой

Все
ответы должны быть грамматически
согласованными
с основной частью задания. Например, наблюдается несоответствие родов или
падежей:

Круговорот веществ, движущей силой
которого является деятельность живых организмов, называется …

1) биологическим

2) большой

3) геологический

4) антропогенным

Не
все иностранные фамилии можно склонять по падежам.

Неправильно

Правильно

Роль
микроорганизмов в питании растений была выявлена в опытах, проведенных…

1)
Прянишниковым Д.Н.

2)
Сабининым Д.А.

3)
Кноп
ом
И.

4)
Сакс
ом
Ю.

Роль микроорганизмов в питании растений
была выявлена в опытах, которые провел…

1)
Прянишников Д.Н.

2)
Сабинин Д.А.

3)
Кноп И.

4)
Сакс Ю.

Все
ответы должны быть грамматически
согласованными
с основной частью задания. Например, может наблюдаться несоответствие чисел
(единственное и множественное)
:

Неправильно

Правильно

Пространство, на
котором популяция или вид в целом встречается в течение всей своей
жизнедеятельности, называется …

1) ареалом

2) площадью

3) зонами

4) территориями

Пространство, на
котором популяция или вид в целом встречается в течение всей своей
жизнедеятельности,
называет(ют)ся…

1) ареалом

2) площадью

3) зонами

4) территориями

Не
допускается использование словосочетаний:  ни один из перечисленных выше; все
перечисленные; все, кроме…

Основные способы приспособления организмов
к условиям

окружающей
среды –это …

1)
активный путь, пассивный путь, избегание неблагоприятных воздействий

2) все перечисленные, кроме активного пути

3) только активный путь

4) ни один из перечисленных вариантов ответа не верен

Ответы
должны быть одинаковы по длине (хотя бы
приблизительно),
не следует формулировать правильный ответ заметно длиннее или короче, чем
дистракторы. Следовательно, правильный ответ не должен отличаться внешне по
длине от дистракторов:

Для защиты атмосферы от загрязнения
проводят …

1) очистку выбросов предприятий от вредных примесей с помощью
газоулавливающих средств

2)
интродукцию растений

3)
рекультивацию земель

4)
мелиоративные мероприятия

Не
следует в качестве дистракторов приводить понятия,
явно
не имеющие отношения к предмету тестирования:

Для физико-химической очистки сточных вод
используют …

1)
адсорбер

2) автобус

3) автомат

4) аттестацию

Не
следует разрабатывать тестовые задания на 
несоответствие
современным научным достижениям или использовать устаревшую информацию:

В
настоящее время количество населения на планете составляет ________ человек.

1)
5 млрд.

2) 3 млрд.

3) 500 млн.

4)100 млн.

Не следует формулировать
задание в виде вопроса:

Неправильно

Правильно

Что содержится в файле с

расширением obj?

  1. Исходный текст программы;
  2. Библиотечные функции;
  3. Исполняемая программа;
  4. Объектный код программы

Файл с расширением obj
содержит:

  1. Исходный текст программы;
  2. Библиотечные функции;
  3. Исполняемую программу;
  4. Объектный код программы

Внутренняя
экспертиза  теста

Каждому эксперту выдаются следующие материалы:

  • Спецификация и план теста
  • Инструкция по экспертизе
  • Формы для заключения об экспертизе и записи
    решений

В процессе экспертизы проводится следующая работа:

  • Выполняется каждое задание теста (указывается
    правильный ответ, приводится решение задания, где необходимо)
  • Анализируются формулировки задания (проверяется
    предметная корректность формулировок)
  • Анализируется содержание заданий на их
    тематическую принадлежность и уровень сложности (базовый, повышенный или
    высокий)
  • Формулируются замечания каждому из заданий, в
    конструктивной форме с предложениями, что и как необходимо изменить.
  • Формулируется заключение о пригодности теста для
    использования

Спецификация теста включает:

  • Цель создания теста, обоснование выбора подхода к
    его созданию,  описание возможных сфер его применения.
  • Перечень нормативных документов (базисных
    программ, требований к уровню подготовки выпускников и др.), используемых
    при планировании содержания теста.
  • Количество заданий различной формы с указанием
    числа ответов к закрытым заданиям, общее число заданий в тесте.
  • Вес каждого задания, рекомендуемый автором теста.
  • Рекомендуемое время выполнения теста, среднее
    время выполнения одного задания с учетом специфики формы.
  • Охват требований государственных образовательных
    стандартов по дисциплине.

Требования к экспертной комиссии и
процедуре экспертизы качества теста

  • Оценка качества содержания теста проводится
    независимыми экспертами, не участвовавшими в разработке теста. Число
    экспертов составляет не менее 3-х человек — наиболее опытные
    преподаватели, с большим стажем работы.
  • В комплект материалов для экспертизы должен
    входить перечень требований к уровню подготовки испытуемых.
  • Эксперту при работе потребуются часы для фиксации
    времени работы над каждым заданием и бланк для экспертного заключения.
  • Если задание теста проверяет степень достижения
    требований на минимальном уровне — это базовое задание, на уровне
    «хорошей» оценки – задание повышенного уровня, «отличной» оценки – сложное
    задание.
  • Эксперт должен оценить значимость содержания
    теста по следующей шкале – 0 – неоправданное включение задания в тест, 1 –
    незначимое задание, 2 – значимое, 3 – наиболее важный опорный элемент.

Оформление
тестового материала и подготовка его

к
компьютерному варианту тестирования

План теста

При разработке плана тестовых
заданий по дисциплине делается примерная раскладка процентного содержания
разделов и определяется необходимое число заданий (но не менее 3-х) по каждому
разделу дисциплины (по каждой дидактической единице) исходя из его важности и
числа часов, отведенных на его изучение в программе.

Требования к оформлению
тестовых материалов

N
ДЕ

Наименование
дидактической единицы ГОС

N
за-
да-
ния

Тема
задания

1

Общая теория права и государства

1

Понятие и признаки права. Система
Российского права и ее структурные элементы

2

Источники и формы права. Норма
права

3

Правоотношения. Правонарушение и
юридическая ответственность

4

Российское право и основные
правовые системы современности. Международное право. Понятие и признаки
государства

2

Основы конституционного права
Российской Федерации

5

Конституция Российской Федерации

6

Основы конституционного строя
Российской Федерации

7

Правовой статус личности в
Российской Федерации

8

Органы государственной власти в
Российской Федерации

3

Основы гражданского права
Российской Федерации

9

Граждане и юридические лица как
субъекты гражданского права

10

Право собственности

11

Обязательства и договоры

12

Наследственное право Российской
Федерации

4

Основы трудового права Российской
Федерации

13

Основания возникновения трудовых
прав работников. Трудовой договор

14

Рабочее время и время отдыха

15

Дисциплина труда

16

Защита трудовых прав граждан

5

Административное правонарушение и
административная ответственность Российской Федерации. Основы уголовного
права Российской Федерации

17

Административное правонарушение и
административная ответственность

18

Преступление. Уголовный закон и
уголовная ответственность

19

Категории и виды преступлений.
Обстоятельства, исключающие преступность деяния

20

Система наказаний по уголовному
праву

Бумажная копия теста должна
быть обязательно подписана автором (авторами) тестового материала с указанием
даты составления и передачи, листы скреплены и пронумерованы.

                Особенностью
современного  образовательного процесса в вузе является его компьютеризация,
что позволяет организовывать тестирование обучающихся на компьютерной основе.

                «Компьютерные» 
педагогические тесты имеют свои особенности, которые необходимо учитывать при
их разработке. Анализ информации на экране монитора компьютера часто бывает
затруднен из-за неправильной подачи материала. Хотя именно компьютеризованное
тестирование имеет свои преимущества и перспективы применения в образовании.
Особенная роль здесь принадлежит компьютерно-индивидуальному тестированию,
когда каждому испытуемому предъявляется уникальный набор заданий.

Возможности компьютерных
средств позволяют сочетать звуковые и зрительные формы предъявления тестовых
заданий. Компьютерные тесты должны быть адаптированы к реальному учебному
процессу. Одно из главных требований к компьютерным тестам — многовариантность.
Многовариантность должна быть двух типов: во-первых, по данным заданий,
во-вторых, по порядку их предъявления. Реализация этого требования снимает
сразу две организационные проблемы: списывание и запоминание ответов.

Достоинства компьютерного
тестирования:

— объективность тестирования
– персональный компьютер  «беспристрастен» при предъявлении тестовых заданий и
подсчете результатов их выполнения.

— удобство фиксации,
хранения и представления результатов тестирования, а также возможность их
автоматизированной обработки, включая ведение баз данных и статистический
анализ.

— удобство реализации
процедур индивидуально-ориентированного тестирования.

— возможность создания
таких тестовых заданий, которые не могут быть представлены без компьютера. При
этом могут быть использованы графические, динамические, интерактивные и другие
специфические возможности представления тестовых заданий на компьютере.

           Недостаток компьютерного
тестирования:

— необходимость минимальных
навыков работы на компьютере тестируемого.

В вузах существуют тестовые
оболочки, куда заносятся вопросы и варианты ответов тестовых заданий (например
«iTest»,  «Му test» и др.). При подготовке компьютерного
тестирования следует учитывать следующую (рекомендуемую) схему взаимодействия
подразделений вуза (см. рис. 2).

Рисунок 2. Схема взаимодействия подразделений

в разработке и реализации
компьютерного теста

                Сектор качества
образования УМЦ обеспечивает централизованное и конфиденциальное хранение
тестовых заданий по учебным дисциплинам.

                При оценке выполнения
теста следует исходить из следующих рекомендаций:

  • Оценка «удовлетворительно»
    ставится, если студент ответил на от 55 до 70% вопросов.
  • Оценка «хорошо» ставится, если
    студент получил от 71 до 85%.
  • Оценка «отлично» ставится,
    если студент получил 86% и более правильных ответов.

Список рекомендуемой литературы

1.       Аванесов, В.С.
Композиция тестовых заданий/ В.С. Аванесов. – М.: АДЕПТ, 1998. – 216 с.

2.       Воскресенская,
О.Л.

Оценка
качества подготовки студентов по дисциплине «Физиология растений» на основе
результатов Интернет-экзамена/ О.Л. Воскресенская, Г.П. Тикина /Материалы
Всероссийской конференции «Преподавание современной физиологии растений в
университетах и вузах страны: проблемы и решения». – М., 2008.

3.       Геворкян,
Е.Н.,
Комплексная
оценка высших учебных заведений/ Е.Н. Геворкян, В.Г. Наводнов, Г.Н.Мотова,
М.В.Петропавловский. — М.: Центр государственной аккредитации, 2003. — 176 с.

4.       Ефремова, Н.Ф.
Современные тестовые технологии в образовании/ Н.Ф. Ефремова. – Ростов-на-Дону:
Издательский центр ДГТУ, 2001. – 187 c.

5.       Киселева,
В.П.
Методика
определения уровня подготовки студентов по результатам аттестационных
педагогических измерений/ В.П. Киселева, А.С. Масленников, В.Г. Наводнов. – Йошкар-Ола:
Центр государственной аккредитации,  2004. —  44 с.

6.       Клайн, П.
Справочное руководство по конструированию тестов/ П. Клайн. – Киев, 1994. – 238
с.

7.       Майоров,
А.Н.

Теория и практика создания тестов для системы образования. / А.Н.Майоров. – М:
Народное образование, 2000. – 351 с.

8.       Масленников,
А.С.
Оценка
уровня обученности студентов в целях аттестации образовательного учреждения
профессионального образования: Учебное пособие/А.С. Масленников, 
Б.А. Савельев. – М.:
Логос, 2003. – 136 с.

9.       Мельников, Ю.В.
Технология использования и разработки тестов и обучающих программ: Методическое
пособие / Ю.В.Мельников. – Домодедово: ВИПК МВД России, 1999. – 21 с.

10.   Михайлычев, Е.А.
Дидактическая тестология / Е.А. Михайлычев. – М.: Народное образование, 2001. –
432 с.

11.   Морев, И. А.
Образовательные информационные технологии. Часть 2. Педагогические измерения:
Учебное пособие/ И.А. Морев. – Владивосток: Изд-во Дальневост. ун-та, 2004. –
174 с.

12.   Переверзев, В.Ю.
Критериально-ориентированное педагогическое тестирование: Учеб. Пособие/ В.Ю.
Переверзев. – М.: Логос, 2003. –120 с.

13.   Родионов, Б.У. Стандарты
и тесты в образовании / Б.У. Родионов, А.О.Татур. – М.: Б.и., 1995. – 48 с.

14.   Челышкова, М.Б. Теория и
практика конструирования педагогических тестов: Учебное пособие/ М.Б.
Челышкова. – М.: Исследовательский центр проблем качества подготовки специалистов,
2001. – 410 с.

Приложение 1

Классификация тестов

1.
По процедуре создания:

· стандартизованные (в образовании, для целей итоговой аттестации);
· не стандартизованные.
2. По средствам предъявления:
· бланковые;
· предметные (манипулируем материальными объектами);
· аппаратурные (используются устройства для изучения особенностей внимания,
восприятия, памяти, мышления);
· практические (лабораторные работы, снабженные соответствующими инструкциями и
имеющие тестовое оснащение);
· компьютерные.

В
рамках компьютерного тестирования В.С. Аванесов предлагает адаптивные тесты —
задания, в которых предъявляются по одному, в зависимости от ответа испытуемого
на предыдущий вопрос.

3.
По направленности:

· тесты интеллекта;
· личностные тесты;
· тесты достижений.
4. По характеру действий:
· вербальные (с использованием умственных действий);
· невербальные (связанные с практическим манипулированием предметов).
5. По ведущей ориентации:
· тесты скорости (содержат простые задачи; время решения ограничено);
· тесты мощности или результативности (содержат трудные задачи, время решения
не ограничено, или мягко лимитировано);
· смешанные тесты (задачи различного уровня сложности, от самых простых до
самых сложных, время испытания ограничено, но достаточно для решения
большинства задач).
Эти тесты наиболее часто применяются на практике, к ним относятся большинство
тестов  учебных достижений.
6. По степени однородности задач:
· гомогенные (задачи, сходные по характеру, но различающиеся конкретным
содержанием);
· гетерогенные (задания отличаются и по характеру, и по содержанию).
7. По объективности оценивания:
· объективные (в процессе обработки результатов тестирования не
предусматривается использование субъективных толкований тестирующим);
· проективные тесты (допускается чрезвычайно большое разнообразие ответов и
проявление определенной субъективности при их толковании тестирующим.
8. По специализации:
· широкоориентированные (для тестов в системе образовании), позволяющие оценить
эффективность процесса обучения, степень освоения учащимися системы знаний,
умений и навыков в ходе учебного процесса;
· узкоориентированные, направленные на выявление достижений учащихся в процессе
освоения отдельных предметов, отдельных тем и т.д.
9. По целям использования (только для тестов в системе образования):
· предварительный определяющий тест (определяет знания в начале обучения,
затрагивает минимум знаний по теме обучения);
· тест прогресса, достигнутого в процессе обучения, формирующий тест
(затрагивает ограниченный сегмент обучения, раздел или главу, состоит из серии
отдельных тестовых вопросов, всесторонне охватывающих ограниченную область
обучения). Пример, обучающие тесты. Ученику даются конкретные инструкции для
исправления обнаруженных ошибок;
· диагностический тест (содержит большое число вопросов, имеющих отношение к
конкретной тестируемой области). Цель теста — определение трудностей обучения.
· суммирующий тест (используется для оценки широкого диапазона результатов
обучения, ожидаемого в конце учебного процесса, содержит вопросы,
представляющие более высокий уровень сложности, чем другие виды тестов).
10. По широте использования (только для тестов в системе образования):
· для использования преподавателем;
· для использования группой преподавателей или администрацией образовательного
учреждения;
· для целей отбора и формирования групп;
· для аттестации обучающихся.
11. По форме:
· тесты закрытого типа (задания с выбором верного ответа (или нескольких
верных) из набора предлагаемых;
· тесты открытого типа (ввод предполагаемого ответа на задание самим
тестируемым).

Приложение 2

Образец оформления титульного
листа  теста по дисциплине

МИНИСТЕРСТВО
СЕЛЬСКОГО ХОЗЯЙСТВА РОССИЙСКОЙ ФЕДЕРАЦИИ

ФГОУ
ВПО УРАЛЬСКАЯ ГОСУДАРСТВЕННАЯ АКАДЕМИЯ

 ВЕТЕРИНАРНОЙ
МЕДИЦИНЫ

              ТЕСТОВЫЕ ЗАДАНИЯ

Для  ________________________________________

                                           
                      цель проверки

По дисциплине
________________________________________

                                       
наименование
дисциплины по ФГОС

Для
специальностей_____________________________________________

                                       
наименование
специальностей по ФГОС

Составлены______________________________________

ФИО,ученая
степень, ученое звание преподавателя

Троицк
— 2009

 

Образец оформления первого листа
тестовых заданий

Утверждено
на заседании кафедры                                                        
Согласовано:

______________________(протокол
№___)                                            Декан
____________________________ 

Зав.
кафедрой________________                                                                       подпись              
ФИО                                                                                   подпись              
ФИО                                                                             «_____»________________________20___г.                          
«_____»______________________20___г.          

ОБЩИЕ СВЕДЕНИЯ О ТЕСТОВЫХ ЗАДАНИЯХ

1 Направление (я), специальность(и), курс(ы)
_______________________________________

2 Название цикла  дисциплин учебного плана
______________________________________

3
Дисциплина (или дисциплины комплексного задания)
_____________________________                     

4 Цель
контроля   ______________________________________________________________

5 Общее
количество тестовых заданий ____________________________________________

6 Рекомендуемое
количество заданий в  тесте ______________________________________

7 Форма (ы)
заданий


открытая____________________________________________________________________

— закрытая
( с выбором одного или нескольких заключений)__________________________

— на
установление правильной последовательности__________________________________

— на
установление соответствия___________________________________________________

— на
конструирование и др.______________________________________________________

8 Время, на
которое рассчитан  тест_______________________________________________

9 Уровень
сложности:


легкие______________________________________________________________________

— средней
трудности____________________________________________________________


трудные_____________________________________________________________________

10 Критерии
оценки:

    оценка
3 (удовлетворительно)  25-49 баллов ______%  правильных ответов

    оценка
4 (хорошо)                         50-74 баллов ______%  правильных ответов

    оценка
5 (отлично)                       75-100 баллов ______%  правильных ответов

11
Кафедра(ы)- разработчик (и) контролирующих материалов ________________________

 Тестовые задания и ключи к ним прилагаются

Понравилась статья? Поделить с друзьями:
  • Инструкция по эксплуатации рено эспейс 5
  • Ингалятор омрон с 17 компрессор инструкция по применению
  • Натурпассит цена инструкция по применению отзывы
  • Первая помощь при тепловом ударе инструкция
  • Тиосульфат натрия инструкция внутривенно как вводить