Педагогическое тестирование: Проблемы, заблуждения, перспективы, Равен Джон

Педагогическое тестирование: Проблемы, заблуждения, перспективы

на обложку

Равен Джон

Шрифт:

Taylor с коллегами[68] пришли к тем же самым результатам, систематизировав и описав их в терминах «тотемных столбов». Работая в том же направлении, Smith[69] показал, что простой прием – попросить учителей указать, в чем силен каждый из учеников, каков его вклад в жизнь школы как сообщества и как школа собирается (при помощи родителей) помочь ему развить индивидуальные способности в течение следующей четверти, – вызвал целую революцию в школе, потому что эти процедуры привели педагогов к открытию, что все ученики не только обладают какими-то способностями, но что эти способности можно выявить и поддержать. Burgess и Adams[70] разработали более общую систему, предназначенную для похожих целей. В нашей работе[71] представлен такой длинный список важных способностей, что невозможно даже представить, чтобы какой-нибудь конкретный человек смог развить в себе больше нескольких из них, – следовательно, разные люди должны обладать разными талантами.

В исследованиях, авторы которых изучали, что происходит с людьми в начале их трудовой деятельности, также можно обнаружить свидетельства, что используемые школами тесты измеряют лишь крохотную часть тех способностей, которые школы

могли бы выявлять, поддерживать и оценивать, и, соответственно, внимание педагогов сосредоточено лишь на этой их части. Bachman с коллегами[72] показали: 80 % опрошенных ими молодых людей считают, что смогли выявить и развить свои способности на работе (по сравнению с 13 % в школе), притом опыт работы привел к наиболее значительному личностному росту и росту их компетентности за все время жизни этих молодых людей. Мы[73] обнаружили, что один из наиболее привлекательных аспектов работы для молодых людей состоит в том, что она позволяет им выполнять то, с чем они успешно справляются, а не только одинаковые для всех рутинные задания, обязательные в школе, в которых они вряд ли могли проявить себя с хорошей стороны.

Вывод очевиден: человеческая одаренность чрезвычайно разнообразна, и это разнообразие слабо связано с характером способностей, необходимых для успешной учебы в школе. Мы, таким образом, совершаем несправедливость в отношении большинства учащихся из-за своего неумения помочь им выявить и развить свои способности. Как показал Flanagan,[74] цена этого – в плане общественных потерь и личных страданий – огромна. Имеющиеся в настоящее время тесты не только не поощряют использование учителями обучающих программ, направленных на развитие различных талантов, но отвращают их от этого, заставляя натаскивать учеников на получение высоких баллов, способных обеспечить дальнейшее обучение в вузах или поступление на хорошую работу. Если мы хотим решить эти проблемы, если мы понимаем, что должны помочь школам и учителям достичь подлинных целей образования, сделать так, чтобы школы содействовали развитию талантов наших детей, если мы хотим дать признание этим талантам, нам нужна совершенно иная модель измерения способностей.

4. Конструктная валидность: большинство тестов не в состоянии измерить ни «академические», ни «интеллектуальные» способности

Инспектора школ Ее Величества в Шотландии (чью работу я уже упоминал выше[75]), Goodlad,[76] а также Raven и другие[77] показали, что большая часть школьного дня заполнена скучной, неувлекательной, рутинной деятельностью, которая редко включает анализ, оценивание, суждение, критическое мышление, столкновение разных мнений, общение и редко ведет к новому пониманию исторических, литературных, научных или социальных вопросов, не говоря уже о постановке и решении новых проблем. Практически не наблюдается сколько-нибудь ощутимой поддержки учащихся в развитии их индивидуальных способностей. Как пишет Goodlad, «учителя не откликаются на инициативу учеников, потому что ученики редко что-либо инициируют». У детей очень мало возможностей поупражняться в таких навыках, как размышление над теми или иными вопросами, планирование, изобретательство, проверка результатов, лидерство, сотрудничество с другими или формирование собственных представлений о функционировании общества и реальных попытках как-то повлиять на него. У детей недостаточно возможностей даже для написания более или менее объемных текстов, не говоря уж о текстах, которые бы перерабатывались и переписывались в течение длительного времени для представления их другим в качестве результата работы, важной для писавшего или для кого-то нуждающегося в этой информации. Обучение языку во многих случаях сводится к подчеркиванию слов в предложениях и заучиванию сформулированных учителем правил грамматики. Арифметика в основном ограничивается механическим применением правил без их понимания. Все эти операции, конечно, измеряются и поощряются используемыми в настоящее время тестами. Те же учителя, чья успешная работа упоминалась выше (более подробно она описана в книге «Открытая начальная школа»[78]), отмечают другие навыки: способность применять контекст и план для поиска необходимой информации, способность отбирать из множества предметов те, что действительно необходимы для достижения цели, способность привлекать прочитанное для размышления над проблемой, которую ученик пытается решить, даже если оно прямо с ней не связано, способность использовать намек, метафору, жестикуляцию для передачи сообщения – ничего этого не выявляют традиционные тесты. Не выявляют они и овладение стратегиями, необходимыми для правильного выполнения арифметических действий, если вдруг забывается результат механического заучивания (вроде 7 x 9 = 63), а он забывается, в этом нет сомнения, и, как показывают исследования,[79] забывается очень быстро, если не повторяется ежедневно. И наоборот, как обнаружили инспектора Ее Величества[80] и Cockcroft[81] многие ученики оказываются не в состоянии применить даже известное им действие умножения 7 х 9 = 63, чтобы подсчитать в магазине, сколько будут стоить 7 предметов, если цена каждого 9 центов. Таким образом, большинство имеющихся тестов вовсе не измеряет способности к осуществлению какой-либо содержательной академической, интеллектуальной и даже практической деятельности, а следовательно, лишено валидности. Они вовлекают учителей и учеников в такую деятельность, которая не позволяет считать сами школы академическими или профессиональными институтами, а происходящую в их стенах деятельность – интеллектуальной или практической.

Вывод о том, что в большинстве случаев тесты не валидны, то есть не позволяют измерять ни академическую, ни интеллектуальную, ни практическую компетентность, подкрепляется результатами анализа, показавшего, что эти тесты измеряют только сиюминутное владение небольшими и произвольно отобранными фрагментами информации низшего уровня, выхваченными из обширной системы знаний, сложившейся в соответствующих научных дисциплинах.[82] Показано, что 50 % информации, запоминаемой учащимися, забывается уже через год, до 80 % —через два года.[83] Элементарные знания, достаточные для успешного прохождения

школьного тестирования, являются устаревшими уже на момент их усвоения. Они не накапливаются и даже при прочном запоминании вряд ли понадобятся когда-нибудь в будущем. Когда людям требуется какое-то знание, им, как правило, нужна специальная и современная информация, которая по большей части еще отсутствовала, когда они учились в школе. В одном из наших исследований[84] 5 0 % участвовавших в интервью представителей среднего класса сказали, что образование (то есть экзаменационные результаты) помогло им получить работу, в то время как лишь 13 % из той же группы отметили, что оно помогло им развить необходимые для этой работы способности. Ответы респондентов из рабочей среды были, понятно, еще менее позитивны. Их «образование» не позволило им даже получить хорошую работу. За пределами заданий на чтение, письмо и счет конструктная валидность имеющихся на сегодняшний день тестов крайне низка. Нет никакого смысла в том, чтобы выдавать сиюминутное знание небольшого числа устаревших научных фактов за валидный показатель научного образования: такая подмена создает впечатление, что достигнутое знание в некотором смысле составляет репрезентативную часть целой области научного знания. Еще в меньшей степени баллы по подобным тестам могут считаться показателями способности научно мыслить, способности быть на современном уровне в конкретной специальной области, способности собрать информацию по интересующей проблеме или способности провести наблюдения, помогающие решить эту проблему. Фактически дела обстоят даже еще хуже, потому что, как показали Taylor с коллегами,[85] существует по меньшей мере 12 различных типов выдающихся ученых (не говоря уж об ученых вообще), обладающих разными интересами и типами компетентности. Более того, ни один из них не относится к числу людей, получавших высокие баллы по традиционным тестам достижений. Таким образом, совершенно неверно считать используемые тесты средством оценки научных знаний, еще меньше их можно считать средством оценки способностей к научной деятельности.

Здесь уместно привлечь внимание читателя еще к одному следствию из приведенных данных. Мы видели, что профессионализм предполагает наличие компетентностей высокого уровня, включая академические и научные компетентности. Мы также видели, что любая академическая или интеллектуальная деятельность, заслуживающая подобного названия, тоже требует таких компетентностей. Таким образом, вопреки принятым представлениям, нет ни разрыва, ни расхождения между целями общего и профессионального образования. В обоих случаях достижение цели требует качественного и высокопрофессионального обучения, которое явно отсутствует в школе. Противоречие же – и глубокое – существует между истинными целями образования, потребностью личности в развитии и профессиональном росте, с одной стороны, и социальной потребностью иметь ясное и неоспоримое основание для узаконенного распределения привилегий – с другой.

Именно это противоречие и привело упоминавшийся уже комитет Министерства образования к столь странной рекомендации, согласно которой «результаты (всего этого разнообразия учебных планов, программ, способов и уровней оценки) должны быть выражены в баллах на основе единой семибалльной шкалы по каждому предмету». В свою очередь, данная рекомендация вступает в явное противоречие с лавинообразным распространением «профилированного» обучения»,[86] которое, как многие надеются (впрочем, напрасно), приведет к тому, что школы смогут по достоинству оценить способности своих учеников.

Хотя уже немало было сказано для дискредитации всей системы тестирования в том виде, как она сейчас организована, я не могу удержаться, чтобы не подсыпать еще соли на эту рану. Многие традиционные тесты достижений отличаются не только низкой надежностью, но и слабой различительной способностью: Spencer обнаружил, что 60 % разброса оценок в классах, где все дети учатся по единой программе, зависит от экзаменатора и только 40 % – от различий между учениками.[87] Абсолютная разница в сырых баллах между тестовыми оценками классов ступеней А и Д (классами высокого и низкого уровней) обычно не превышает 8 пунктов. Большая часть этой незначительной разницы может быть отнесена за счет различий в оформлении работы, а не за счет различий в знании предмета. Wolf[88] удалось показать следующее:

1) «достижения» при выполнении конкретных операций очень сильно зависят от того, как задается вопрос или как подается задание (так, например, число учеников, способных выполнить простое деление, существенно снижается, если вместо привычного «112:7=?» написать выражение «112/7 =?», не говоря уже о представлении задачи в форме реалистичной жизненной проблемы);

2) среди экзаменаторов и проверяющих часто нет согласия даже в том, следует ли отнести данный ответ к верхней или нижней половине шкалы оценок, не говоря уже о более тонком ранжировании;

3) отдельные экзаменаторы в зависимости от ситуации нередко выставляют разные баллы за одно и то же качество работы;

4) на экзаменах учащиеся нередко выполняют одно и то же задание по-разному в зависимости от ситуации.

Из этого Wolf делает вывод, что оцениваемые конструкты не дают оснований для сколько-нибудь обобщенных заключений и что надежность, устанавливаемая повторным тестированием, чрезвычайно низка, даже если тесты обладают высокой внутренней согласованностью. (При том, что индексы внутренней согласованности тестов обычно представляются в качестве приемлемого показателя ретестовой надежности.) Следовательно, эти тесты не только не измеряют никакой академической или интеллектуальной способности в собственном смысле этого слова, но не обладают достаточной надежностью и конструктной валид-ностью даже в качестве показателей различий между учениками по наличному уровню их знаний или умений. Дальнейшее повсеместное использование этих тестов для оценивания учеников ничем не оправдано. То же самое можно сказать и относительно оценки образовательных институтов, учебных программ и самих педагогов. Ошибочно полагать, что это обеспечивает потребителям возможность выбора услуг в сфере образования и контроля за их качеством и, в свою очередь, способствует улучшению этих услуг. Такая оценка не может быть полезной и при отборе лиц, подходящих для выполнения важных общественных функций.

1 2 3 4 5 6 7 8 9