教育心理学：如何理解学习过程中的正强化与正惩罚？

唯学网 • 教育培训

~~2021-10-18 11:30~~

唯学网 • 中国教育电子商务平台

在关于狗乞食行为的例子中，狗在做出乞食反应后，伴随着一些愉快的事情(得到肉块)，所以会使其反应增多。相似地，如果你学习后取得了好成绩，你就会继续努力或更加努力地学习。在这一过程中，愉快的后果使反应更可能发生，这叫正强化。

正负强化物和惩罚物

但也存在另一种类型的强化——负强化(negative reinforcement)，它涉及去除一些不愉快事物的过程。例如，如果有人总是唠叨让你学习，当你听从时就不再唠叨，你的学习行为可能会增加——因为你想避免被唠叨：同样，吃药会缓解病痛，在校园里刻意选择走某条路就是为了避免碰见那个粗鲁的人，都是负强化发生的情况。

这种正负的区分也可用于惩罚：出现一些行为后，会发生一些不愉快事件(正惩罚)，或者一些愉快事件被去除(负惩罚)。例如，如果你的朋友取笑你是个书呆子(正惩罚)，或如果学习使你没时间和朋友在一起(负惩罚)，你可能就会停止学习。

正负强化和正负惩罚之间的区别常常是引起学生产生混淆的原因，它扰乱了许多聪明的大脑。如果你理解了“正”“负”与“好”“坏”无关，就能更快地掌握这些术语。

它们是指是否呈现某物或拿走某物。在强化程序中，应把正强化物看作某种增加或获得的东西(你可以画一个“+”号)，负强化则是避免或逃离某种不愉快的事物(可以画一个“—”号)。

在这两种情况下，反应都变得更可能发生。还记得小艾伯特通过经典条件反射学会恐惧老鼠时发生了什么吗?在他学会恐惧后，逃离当前可怕的情境时，爬走的行为被强化了。逃离或避免某种不愉快事物带来的负强化，可以解释为什么如此多的恐惧可以长久持续，在避免一种可怕物体或情境的同时，也切断了所有消除恐惧的机会。

人们常常混淆负强化是可以理解的，这是因为二者都包含不愉快刺激。但是，在惩罚中，你遭受了不愉快刺激，而在负强化中，不愉快刺激则被去除掉了。

为了正确理解这些术语，应当记住：惩罚(无论正负)减少了反应发生的可能性，而强化(无论正负)则增加了这种可能性。

在现实生活中，惩罚和负强化常常同时存在。如果你使用项圈来教狗跟随主人，那么猛拉项圈就是对它走到你前面去的惩罚，而放松项圈就是对狗在你旁边的负强化。

你可以通过休息一会儿来正强化你对这些材料的学习，当你已经掌握了这些材料时，焦虑降低就将对你的学习产生负强化。但是，我们希望你不会对自己说“我永远也会不了”或“这太难了”来惩罚你的努力。

操作性条件反射的原理

研究者进行了数以千计操作性条件反射的研究，其中许多都是以动物为被试进行的。一种受欢迎的研究工具是斯金纳箱(Skinner box)，它有一种装置，当动物做出期望反应时就给它食物或水，当做出不期望的反应时就给它电击。

在现在的版本中，电脑会记录反应并生成一张图，表明反应随时间而增加的次数。

在斯金纳(Skinner，1938)的早期学术生涯中，他使用斯金纳箱经典地证明了操作性条件反射。他将先前学会了通过食物释放装置吃东西的老鼠放在箱中，因为没有食物，老鼠表现出典型的行为，仓皇四窜、到处嗅闻，偶尔会碰到地板和墙。非常偶然地，它压到了墙上的杠杆，一粒美味鼠食立即掉在食盘中。

然后老鼠又四处乱窜，再次偶然地碰到杠杆，得到食物。再经过几次这样碰到杠杆得到食物的重复，它的行为就开始减少随机性，能够更协调地按压杠杆。最后，斯金纳使老鼠学会了尽可能快地按压杠杆。

消退

就像经典条件反射那样，在操作性条件反射中，消退(extinction)是导致先前习得反应消失的程序。在操作性条件反射中，保持反应的强化物被去除或不能得到时就会发生消退。起初，可能会出现反应爆发，但随后反应就会渐渐变弱，最终则会消失。

设想一下，若你在售货机里投入一枚硬币，却什么也没得到，你也许会投入另一枚硬币，甚至两枚，但随后你就可能会停止尝试。第二天，你也许还会投入一枚硬币，这是自然恢复的例子。但最终，你会放弃那台机器。你的反应已经消退了。

刺激泛化和分化

就像经典条件反射那样，在操作性条件反射中也可能发生刺激泛化2(stimulus generaliza-tion)。也就是说，反应可能会泛化到在最初的学习情境中没有出现的但在某种程度上类似于最初刺激的刺激。

例如，通过训练已经学会啄圆形的鸽子，也会啄有点椭圆的图形。但是，如果你想训练这种鸟辨别这两种形状，你就应同时呈现圆形和椭圆，每次鸽子啄圆形时就给出强化物，啄椭圆时就不给强化物，最后它就会产生刺激分化(stimulus discrimination)的反应。

事实上，鸽子已经获得了特殊的辨别能力，它们甚至学习了区别凡·高(Van Gogh)和马克·夏卡尔(Marc Chagall)的油画(Watanabe，2001)，然后，呈现这两位画家的其他两幅作品，它们也能区分开。

有时，动物或人只有在其他一些刺激存在时，才能学会对刺激反应，这种刺激叫作辨别刺激。

这种辨别刺激提示了反应是否会得到奖励。对于斯金纳箱中的鸽子来说，灯光可以作为啄圆形的辨别刺激。灯亮时，啄的行为会得到奖励;灯灭时，啄的行为是徒劳的。人类的行为被许多辨别刺激所控制，如语言(营业时间是9点到5点)和非语言的(交通信号灯、门铃、电话铃、别人的面部表情)。为了有效生活并与他人相处，我们都学会了如何在辨别信号呈现时做出正确反应。按程序学习

通常来说，当一种反应刚开始形成时，如果每次反应都得到强化，学习得最快，这种程序叫作连续强化。但是，一旦反应变得确实会发生，如果用间隔(部分)强化程序，反应就不太可能消退，这种程序只对一些反应进行强化。

在斯金纳(Skinner，1956)的研究中，偶尔会发生食球短缺的情况，斯金纳被迫降低了强化物的发放频率，却意外地发现了这个事实。

在间隔强化程序中，一些间隔程序只在一定次数反应后，给出强化物;另一些间隔程序只对上次强化物出现一定时间后做出的反应进行强化。这影响了行为的频率、形式和时机。

间隔强化有助于解释为什么人们常常喜欢“幸运”帽、护身符和宗教仪式。一个击球手摸了一下耳垂，然后打出了一记本垒打，从那时起，他每次走向本垒时都要摸一下耳垂。一个学生考试用紫色笔得了A，此后她每次考试都用紫色笔。

这些仪式会继续下去，因为有时它们会很偶然地带来强化物(击中球、好成绩)，所以它们不会消退。

斯金纳(曾通过在实验室中制造了8只“迷信的”鸽子证明了这种现象。他操纵鸽笼，即使鸽子一动不动，也让食物每15秒送达一次。鸽子常常在活动，所以当食物来了时，每只动物都可能正在做着什么，这种正在做着的行为被食物的送达所强化。

行为当然完全是偶然被强化的，但仍然很可能再次发生，这样就被再次强化。在很短时间内，6只鸽子一直在练习某种仪式性的行为——逆时针转圈，上上下下地轻轻点头，或者摇着头走来走去。

这些活动都由于强化物的出现而具有很大的效果;这些鸽子表现出“迷信行为”。它们似乎认为是自己的动作带来了食物。

现在要集中注意了，因为下面是关于操作性条件反射所要了解的最有用的东西。如果你想在习得后能持久地保持某种反应，那么就应该使用间隔强化，而非连续强化。

如果你的仓鼠哈里用鼻子推弹球，你连续给它强化，随后你突然停止了强化，哈里就会很快停止推球。因为强化的改变是巨大的，从连续强化到根本没有强化，哈里能很容易辨别出这种改变。但是如果你只是经常强化哈里的行为，变化就不会这样显著，你那饥饿的仓鼠将会继续应答一段时间。

被间隔强化的鸽子、老鼠和人，在停下休息之前，特别是强化物出现的时机有变化时，已经在实验室中没有强化的情况下应答了几千次。动物有时会为了不可预测的、不常出现的一点食物而如此努力地完成任务，它们消耗的能量比从奖赏中获得的食物还多。从理论上讲，它们实际上能一直工作到死!

因此，如果你想消除自己或别人的某种反应，你就要小心，不要对它进行间隔强化。如果你想通过忽略它来消退非期望行为，你必须完全一致地去避免强化(你的注意)，如孩子的哭闹、朋友的午夜电话、父母的烦人建议。

否则，别人会学会，如果他或她一直哭叫、打电话或提建议的时间足够长，他们最终会得到奖赏。从行为主义的观点来看，人们犯的最普遍的错误就是，他们间歇地奖励他们想要消除的反应。

来源：教育相先生

0% (10)

0% (0)

~~已有条评论~~