Режимы подкрепления поведения

режимы подкрепления поведенияВ концепции оперантного обусловливания режимы подкрепления — важный компонент процесса научения. То, как часто мы подкрепляем поведение, может оказать огромное влияние на устойчивость и скорость реакции в дальнейшем.

Режим подкрепления — по сути, правило, определяющее, когда и как поведение должно подкрепляться. В некоторых случаях поведение получает подкрепление всякий раз, когда происходит, иногда — через определённые промежутки времени.

Цель подкрепления — увеличить вероятность того, что это поведение повторится в будущем. В зависимости от ситуации может быть использовано как положительное, так и отрицательное.

В реальных условиях поведение вряд ли возможно подкреплять каждый раз. В ситуации, когда вы намеренно пытаетесь обучить/натренировать/выдрессировать кого-то, вы можете выбрать конкретный режим. Учёные уже определили, что некоторые режимы лучше всего подходит для определённых целей и задач.

Существует два типа режимов подкрепления:

  1. Непрерывное подкрепление (желаемое поведение подкрепляется каждый раз, когда демонстрируется).
    Как правило, этот режим лучше всего использовать на начальных этапах обучения, поскольку он помогает создать сильную связь между поведением и реакцией. Затем многие переходят к частичному подкреплению.
  2. Частичное подкрепление (нужная реакция подкрепляется лишь периодически). Поведение приобретается медленнее, зато после прекращения подкрепления ещё долгое время остаётся актуальным.

Учёные выделяют четыре режима частичного подкрепления.

Режим подкрепления с фиксированной пропорцией

При данном режиме поведение подкрепляется только после определённого числа реакций. Этот график обеспечивает высокую и устойчивую скорость реагирования с относительно коротким периодом «отдыха» между реакциями. Это способ хорошо применять при научении новому поведению или для поддержания нужной производительности. Например, если рабочим на заводе платить деньги за каждую партию продукции, а не за отработанное время, они будут менее склонны к частым перерывам.

Режим подкрепления с изменяющейся пропорцией

При этом режиме подкрепление происходит после случайного числа реакций. Этот режим позволяет добиться постоянности и высокой скорости реагирования.

Пример из реальной жизни — игровые автоматы. Игроки никогда не знают, сколько игр им нужно сыграть, чтобы выиграть. Всё, что они знают — это то, что кто-то в них выигрывает. Именно поэтому, даже, проиграв все деньги, они с неохотой уходят от автоматов. Зависимость игроманов столь устойчива, что без помощи специалистов иногда её побороть невозможно.

Режим подкрепления с фиксированным интервалом

При фиксированном интервале подкрепления оно предъявляется спустя определённое время после первой реакции. Это довольно распространённый режим — на практике так реализуются выплаты вознаграждений работникам в большинстве организаций. Однако, с точки зрения подкрепляющего, это не самый эффективный режим — реакции усиливаются и учащаются к концу этого периода, а сразу после подкрепления их частота и скорость резко падают.

Режим подкрепления с изменяющимся интервалом

Данный режим предполагает предъявление подкрепления через неопределённый промежуток времени после первой реакции. Так мы проверяем почту — много раз за день, случайным образом выбирая для этого время (хотя и имеем возможность узнать сразу о том, что нужное письмо пришло).

Ещё примером могут стать неожиданные проверки начальства: босс может в любое время выйти из своего кабинета, чтобы пойти проверить своих подчинённых — и в этот момент вам лучше быть на месте и делать что-то полезное. Мотивирует, не так ли?

Выбираем режим подкрепления

Необходимость подкрепить поведение обычно зависит от ряда факторов. В случаях, когда вы специально пытаетесь научить новому поведению, стоит выбрать непрерывное подкрепление. Того, как поведение перестанет быть новым, можно будет перейти к частичному подкреплению.

Впрочем, на практике подкрепление после каждой реакции может быть затруднительным, поскольку зачастую требует много внимания и ресурсов. Режимы частичного подкрепления не только обеспечивают более устойчивое поведение, но и снижают риск того, что объект «пресытится» и перестанет дорожить подкреплением. Если подкрепление больше не устраивает объект, он может перестать демонстрировать желаемое поведение. Представьте, например, что вы пытаетесь научить собаку сидеть. Если вы используете в качестве награды пищу, собака может прекратить выполнять команду, как только насытится. В таких случаях более эффективной оказывается похвала.

Теги: ,


Есть что сказать? Оставть комментарий!:

Яндекс.Метрика