Режимы подкрепления поведения
В концепции оперантного обусловливания режимы подкрепления — важный компонент процесса научения. То, как часто мы подкрепляем поведение, может оказать огромное влияние на устойчивость и скорость реакции в дальнейшем.
Режим подкрепления — по сути, правило, определяющее, когда и как поведение должно подкрепляться. В некоторых случаях поведение получает подкрепление всякий раз, когда происходит, иногда — через определённые промежутки времени.
Цель подкрепления — увеличить вероятность того, что это поведение повторится в будущем. В зависимости от ситуации может быть использовано как положительное, так и отрицательное.
В реальных условиях поведение вряд ли возможно подкреплять каждый раз. В ситуации, когда вы намеренно пытаетесь обучить/натренировать/выдрессировать кого-то, вы можете выбрать конкретный режим. Учёные уже определили, что некоторые режимы лучше всего подходит для определённых целей и задач.
Существует два типа режимов подкрепления:
- Непрерывное подкрепление (желаемое поведение подкрепляется каждый раз, когда демонстрируется).
Как правило, этот режим лучше всего использовать на начальных этапах обучения, поскольку он помогает создать сильную связь между поведением и реакцией. Затем многие переходят к частичному подкреплению. - Частичное подкрепление (нужная реакция подкрепляется лишь периодически). Поведение приобретается медленнее, зато после прекращения подкрепления ещё долгое время остаётся актуальным.
Учёные выделяют четыре режима частичного подкрепления.
Режим подкрепления с фиксированной пропорцией
При данном режиме поведение подкрепляется только после определённого числа реакций. Этот график обеспечивает высокую и устойчивую скорость реагирования с относительно коротким периодом «отдыха» между реакциями. Это способ хорошо применять при научении новому поведению или для поддержания нужной производительности. Например, если рабочим на заводе платить деньги за каждую партию продукции, а не за отработанное время, они будут менее склонны к частым перерывам.
Режим подкрепления с изменяющейся пропорцией
При этом режиме подкрепление происходит после случайного числа реакций. Этот режим позволяет добиться постоянности и высокой скорости реагирования.
Пример из реальной жизни — игровые автоматы. Игроки никогда не знают, сколько игр им нужно сыграть, чтобы выиграть. Всё, что они знают — это то, что кто-то в них выигрывает. Именно поэтому, даже, проиграв все деньги, они с неохотой уходят от автоматов. Зависимость игроманов столь устойчива, что без помощи специалистов иногда её побороть невозможно.
Режим подкрепления с фиксированным интервалом
При фиксированном интервале подкрепления оно предъявляется спустя определённое время после первой реакции. Это довольно распространённый режим — на практике так реализуются выплаты вознаграждений работникам в большинстве организаций. Однако, с точки зрения подкрепляющего, это не самый эффективный режим — реакции усиливаются и учащаются к концу этого периода, а сразу после подкрепления их частота и скорость резко падают.
Режим подкрепления с изменяющимся интервалом
Данный режим предполагает предъявление подкрепления через неопределённый промежуток времени после первой реакции. Так мы проверяем почту — много раз за день, случайным образом выбирая для этого время (хотя и имеем возможность узнать сразу о том, что нужное письмо пришло).
Ещё примером могут стать неожиданные проверки начальства: босс может в любое время выйти из своего кабинета, чтобы пойти проверить своих подчинённых — и в этот момент вам лучше быть на месте и делать что-то полезное. Мотивирует, не так ли?
Выбираем режим подкрепления
Необходимость подкрепить поведение обычно зависит от ряда факторов. В случаях, когда вы специально пытаетесь научить новому поведению, стоит выбрать непрерывное подкрепление. Того, как поведение перестанет быть новым, можно будет перейти к частичному подкреплению.
Впрочем, на практике подкрепление после каждой реакции может быть затруднительным, поскольку зачастую требует много внимания и ресурсов. Режимы частичного подкрепления не только обеспечивают более устойчивое поведение, но и снижают риск того, что объект «пресытится» и перестанет дорожить подкреплением. Если подкрепление больше не устраивает объект, он может перестать демонстрировать желаемое поведение. Представьте, например, что вы пытаетесь научить собаку сидеть. Если вы используете в качестве награды пищу, собака может прекратить выполнять команду, как только насытится. В таких случаях более эффективной оказывается похвала.
Теги: бихевиоризм, подкрепление
Есть что сказать? Оставть комментарий!: