Алгоритмы подкреплений

Алгоритмы подкрепленийСуществуют несколько алгоритмов подкреплений, используемых в оперантном научении для различных целей и ситуаций.

Использование алгоритма подкреплений является важным компонентом учебного процесса при оперантном научении. То, когда и как мы поощряем поведение, может иметь значительное воздействие на силу и уровень реакции.

Алгоритм подкреплений – это правило, которое определяет частоту поощрений. В некоторых случаях поведение может поощряться каждый раз. В некоторых случаях оно может не поощряться вообще. В зависимости от ситуации могут использоваться как позитивные, так и негативные подкрепления. Любой вид подкрепления используется для того, чтобы усилить проявление желаемого поведения и повысить вероятность его повторения в будущем.

В реальной жизни вряд ли получится постоянно использовать алгоритм подкреплений. В ситуациях, когда необходимо целенаправленно формировать определенный вид поведения или развивать навыки, возможно использование конкретного алгоритма подкреплений. Из примеров, представленных ниже, вы увидите, что для каждой отдельной ситуации может потребоваться свой алгоритм. Иногда может потребоваться использование одного алгоритма в начале и потом его смена на другом этапе.

Далее приводится два вида алгоритмов подкреплений:

Постоянное подкрепление

При постоянном подкреплении желаемое поведение поощряется каждый раз при его проявлении. Обычно этот алгоритм используется на начальной стадии обучения, чтобы установить сильную связь между поведением и результатом. Как только формируется условный рефлекс, происходит переход на алгоритм частичного подкрепления.

Частичное подкрепление

При частичном подкреплении желаемое поведение поощряется только периодически. При использовании этого вида алгоритма навыки приобретаются медленнее, но зато они менее подвержены угасанию.

Существует четыре типа алгоритма частичного подкрепления:
Равновесный алгоритм – когда поощрение случается только после определенного количества проявлений желаемого поведения. Такой алгоритм приводит к частым повторам с небольшими паузами между использованием подкреплений.

Переменный алгоритм – когда поощрение используется внезапно. Этот алгоритм способствует высокой частоте повторов, примером такого алгоритма являются азартные игры и лотерея.

Алгоритм с фиксированными интервалами подразумевает поощрение только спустя определенное время после первого проявления желаемого поведения. Такой алгоритм способствует частому проявлению желаемого поведения к концу интервала, но при этом наблюдается значительное снижение количества таких повторов сразу после использования подкрепления.

Алгоритм с разными интервалами подразумевает использование подкрепления после неопределенного промежутка времени. Он характеризуется малым, но постоянным количеством проявлений желаемого поведения.

Выбор алгоритма

Выбор алгоритма зависит от различных факторов. Если ваша цель – привить новую модель поведения, тогда постоянный алгоритм будет самым лучшим выбором. Как только желаемая модель поведения будет закреплена, можно перейти на частичное подкрепление.

В действительности постоянное подкрепление требует большого количества сил и времени. Частичное подкрепление не только предотвращает риск угасания, но также предупреждает перенасыщение субъекта подкреплениями. Если используемое подкрепление перестает быть желанным, тогда субъект может прекратить проявлять желаемое поведение.

Метки:

Если понравилась статья, поделись с друзьями:


Комментировать через контакт