Не рычите на собаку! Книга о дрессировке людей, животных и самого себя
Шрифт:
Неумение использовать условное отрицательное подкрепление повышает количество реальных отрицательных подкреплений, которые используются в коррекционной тренировке. Это значительно замедляет процесс обучения. Традиционные дрессировщики собак и лошадей иногда тратят на выработку желаемого поведения гораздо больше времени, чем те, кто использует положительное подкрепление. Порой время дрессировки увеличивается на несколько месяцев, а то и лет. Это происходит не только потому, что они полагаются исключительно на наказание (этот прием останавливает поведение, а не дает начало новому), но еще и потому, что они используют реальные отрицательные подкрепления, не сформировав условного отрицательного подкрепления. В результате требуются
Среди дрессировщиков собак в последнее время приобрел популярность особый вид условного отрицательного подкрепления. Речь идет о маркере отсутствия вознаграждения. Обычно таким маркером служит слово «Неправильно», произнесенное нейтральным тоном. Идея заключается в том, что, когда собака пытается вести себя неправильно, чтобы понять, чего же вы хотите, вы помогаете ей, сообщая, что именно она делает не так. Вы формируете сигнал, который говорит животному: «Эти действия не будут вознаграждены».
Б. Ф. Скиннер определял отрицательное подкрепление, как лишение чего-то желанного. В этом смысле сигнал «неправильно» является условным отрицательным подкреплением, поскольку он означает недоступность вознаграждения.
Занимаясь дрессировкой собак, я сталкивалась с ситуациями, в которых сигнал «неправильно» был очень полезен. Если ваша собака демонстрирует широкий набор полностью сформированных видов поведения, то есть является сложным объектом для дрессировки, вы можете использовать сигнал «неправильно» в качестве намека на изменение поведения. В данной ситуации он означает: «Этот путь никуда не приведет. Попробуй что-нибудь другое».
Этот прием работает только в том случае, если вы уже использовали положительные подкрепления различных видов поведения, а ваша собака активно ищет новые пути, чтобы заставить вас кликнуть или дать ей реальное подкрепление. Люди испытывают трудности с условным отрицательным подкреплением, когда используют его с неопытной собакой, которая не понимает, чего от нее хотят.
Прикажите собаке сесть, а если она этого не сделает, скажите: «Неправильно». Если собака уже понимает, что этот сигнал означает отсутствие вознаграждения, она поймет, что вы наказываете ее за то, что она не села. Но это еще не означает, что она действительно сядет. На самом деле результат будет таким же, как и при любом другом наказании – то есть абсолютно непредсказуемым. Собака может вообще перестать реагировать на слова и убежать или бросить все и начать искать собственные подкрепления, то есть вести себя неподобающе – лаять, тянуть поводок, обнюхивать землю, скрести, обращать внимание на все, что угодно. Поэтому условное и реальное отрицательное подкрепление лучше использовать тогда, когда вам необходимо прекратить нежелательное поведение, а для выработки новых навыков пользуйтесь положительным подкреплением.
Режимы подкрепления
Существует распространенное заблуждение, что если вы начали вырабатывать какое-то поведение с помощью положительного подкрепления, то должны продолжать пользоваться этим методом всю жизнь. А если перестать использовать этот метод, желательное поведение прекратится. На самом деле это не так. Постоянное подкрепление необходимо только на этапах обучения.
Вы можете постоянно хвалить малыша за то, что он научился пользоваться горшком. Но как только поведение закреплено, дальше оно проявляется автоматически. Мы подаем (или должны подавать) массу подкреплений начинающему. Когда ребенок учится кататься на велосипеде, вы наверняка постоянно повторяете ему: «Правильно, а теперь прямо… Ты сделал это, хорошо!» А теперь представьте, насколько глупо вы будете выглядеть, если продолжите хвалить ребенка, который уже отлично катается на велосипеде. Да и ребенок подумает, что вы сошли с ума.
Чтобы
Психологи называют это вариативным режимом подкрепления. Вариативный режим намного более эффективно поддерживает поведение, чем постоянный и предсказуемый. Один психолог объяснил мне это так. Если вы купили новую машину, которая резво трогается с места, и в один прекрасный момент она почему-то не завелась, вы несколько раз попробуете повернуть ключ, но потом поймете, что что-то сломалось, и позвоните механику. Поворачивание ключа в отсутствие ожидаемого немедленного подкрепления быстро прекращается. Если же у вас старая машина, которая почти никогда не заводится с первой попытки, и для того, чтобы ее завести, требуется длительное время, вы будете поворачивать ключ снова и снова. Поворачивание ключа длительно подкреплялось в вариативном режиме. И поэтому это прочно закрепленное поведение.
Если я буду давать дельфину рыбу за каждый прыжок, животное станет прыгать невысоко и вяло – лишь бы получить рыбу и отделаться от меня. Если я прекращу давать рыбу, дельфин быстро перестанет прыгать. Но можно поступить иначе. Дельфин научился прыгать за рыбу. Теперь я начинаю подкреплять первый, третий и последующие прыжки случайным образом. Тогда желательное поведение закрепится более прочно. Не получивший вознаграждения дельфин станет прыгать более часто, надеясь вытянуть счастливый билет, а энергичность прыжков может даже возрасти. Это позволит мне избирательно подкреплять лучшие прыжки. Используя вариативный режим, я сформирую требуемое поведение.
Но даже профессиональные дрессировщики не всегда правильно используют вариативный режим положительного подкрепления. Понять и принять эту концепцию бывает нелегко.
Мы понимаем, что не нужно наказывать за неправильное поведение, если это поведение прекратилось. Но мы не понимаем, что необязательно и даже нежелательно вознаграждать правильное поведение постоянно.
Стремясь закрепить дисциплину животного с помощью положительного подкрепления, мы оказываемся менее уверенными в себе.
Привлекательность вариативного режима лежит в основе всех азартных игр. Если бы каждый раз, когда вы опускали мелкую монетку в игровой автомат, вам выпадала монетка более крупного достоинства, вы быстро заскучали бы. Да, вы обогатитесь, но вам будет скучно. Люди любят игровые автоматы именно потому, что предсказать результат практически невозможно. Вы можете ничего не выиграть, выиграть маленькую сумму или получить огромный выигрыш. Невозможно понять, в какой момент будет получено подкрепление (это может случиться даже в самый первый раз). Почему некоторые люди впадают в игровую зависимость, а некоторые – нет, это другой вопрос. Но для тех, кто попался на крючок, привлекательным является именно вариативный режим подкрепления.
Чем дольше сохраняется вариативный режим, тем прочнее он закрепляет поведение. Но длительность режима работает против вас в тех случаях, когда вы стремитесь устранить определенный стандарт поведения.
Неподкрепленное поведение угасает само собой. Но если поведение время от времени подкрепляется, пусть даже спорадически – одна сигарета, одна рюмка, одна уступка капризному ребенку или нудному партнеру, – оно не угаснет, а, напротив, прочно закрепится.
И добьетесь вы такого нежелательного результата с помощью длительного вариативного режима. Так человек, бросивший курить и случайно позволивший себе одну сигарету, может снова превратиться в отъявленного курильщика за одну минуту.