幼儿学习与发展(张永红海鹰张丹枫主编)_第一节行为主义学习理论（1 / 1）_幼儿学习与发展最新章节免费阅读无弹窗

行为主义是西方心理学的主要流派之一，产生于20世纪初的美国，从20世纪20年代到50年代，整整30年在美国心理学研究中一直处于统治位置。行为主义者认为，早先各心理学流派研究心理现象的研究方法不科学，心理学不应只研究人脑中那种无形的、不可捉摸的东西——意识。如果心理学要成为一门科学，那就必须建立在自然科学研究的基础上，研究那些可观察、可测量的现象，即人的行为。

行为主义学习理论的标志不在于研究行为（所有的学习理论都研究行为），而在于根据环境中的事件来解释学习。他们将学习过程看作是个体在外部刺激下的反应过程，认为S-R（刺激-反应）模式可用来解释人类各种形式的学习和个性特征。被认为是当代行为主义创始人的华生（John B.Watson，1878-1958）曾发表过如下著名的言论：

给我一打健康、外形完好的婴儿，放在我设计的特殊的环境里培养。我敢保证，随便挑选出其中一人，我都能把他训练成我所选择的任何一类专家——医生、律师、艺术家、商业首领，甚至是乞丐或是小偷，而无论他的才能、爱好、倾向、能力，或他先辈的职业和种族是什么。

最著名的行为主义学习理论当属斯金纳（B.F.Skinner）的操作性条件反射理论。而早期的刺激-反应学习理论如桑代克的联结主义理论、巴甫洛夫的经典条件反射理论则起到了重要的奠基作用。行为主义的另一杰出代表人物班杜拉则进一步考虑到了个体的认知学习，并从新行为主义的立场出发阐释了儿童的个性与社会性学习问题。

一、早期刺激-反应学习理论

（一）桑代克的联结主义理论

爱德华·L.桑代克（Edward Lee Thorndike，1874-1949）是美国著名心理学家。他创立了教育心理学这一学科，使教育心理学从教育学和儿童心理学中分化出来，成为一门独立的学科，因此也被誉为现代教育心理学之父。其主要著作为三卷本的系列丛书《教育心理学》（Educational Psychology），书中他提出了著名的联结主义学习理论。此理论在20世纪上半叶的美国有着举足轻重的地位。

尝试错误学习

桑代克的联结主义学习理论假设最基本的学习形式是感觉经验（刺激或对事件的感知）与神经冲动（行为表现）之间形成联想或联结。他认为学习经常发生在尝试错误（选择与联结）中。

对于桑代克而言，学习的最基本形式便是尝试错误学习，或者是他最初称作的选择与联结，他是在早期实验中得出这一基本观点的。桑代克亲自设计了实验所需的迷箱（如图2-1所示），这个小而狭窄的箱子中间竖立着一根杆子或在顶部悬挂着链子，如果能推动杆子或拉动链条，门就会被打开。

图2-1 桑代克的迷箱

在一个经典的实验中，桑代克把一只饥饿的猫放入箱内，箱外放着食物。一开始，饿猫在箱内又抓又咬，拼命挣扎，想逃出箱子吃到食物。无意中它碰到了杆子或者链条，门被打开，饿猫逃出了迷箱，吃到了食物，随后猫又被放回箱子，继续下一轮实验。猫在箱内仍然乱抓乱咬，不过逃出箱子所需要的时间可能会少些。经过反复的尝试，猫逃出迷箱所需的时间越来越少，无效的动作逐渐被排除。图2-2显示了这个典型实验的结果。

图2-2 操作水平随尝试次数的增多而提高

据此桑代克认为，猫是在经过多次尝试错误之后，在刺激环境和正确行为之间形成了联结，从而掌握了开门的方法。猫被关在箱内，箱外的食物就是刺激，猫推动杆子或拉动链条逃出迷箱是它所要学习的行为或反应。在刺**境下，如何作出适当反应达到逃脱目的，就是“刺激-反应”的联结，而联结的形成就是学习。桑代克认为，学习的实质就在于有机体形成“刺激”（S）与反应（R）之间的联结。尽管人类的学习更加复杂，但是由于动物和人的研究所获得的结果存在相似性，桑代克最终还是用基本的学习原理来解释各种复杂的学习。他认为，一个受过教育的成年人不过是拥有成千上万个“刺激-反应”的联结而已。

“三大学习定律”

桑代克根据一系列动物实验的研究结果桑代克提出了以下学习规律。

准备律（law of readiness）

桑代克在他的《人类的原初本性》一书中提出了准备律，它由以下三部分组成。

1.当一个传导单位准备好传导时，传导得以实现就会引发满意。

2.当一个传导单位准备好传导时，传导不能实现就会引发苦恼。

3.当一个传导单位没有准备好传导但被迫传导时，传导就会引发苦恼。

在这里，“一个准备好传导的传导单位”仅仅是指行为的准备状态或目标的指向状态。我们运用当前的术语可以把桑代克的准备律重述如下：

1.当某人准备表现某一行为时，去做就会引发满意。

2.当某人准备表现某一行为时，不去做就会引发苦恼。

3.当某人不准备表现某一行为但被逼去做时，就会引发苦恼。

一般而言，阻碍目标的指向行为可以导致沮丧，促使个体去做他不想做的事情也会导致沮丧。

该原理是说，当一个人准备采取某种行动时，做这件事情本身就是一种奖励，不做就是惩罚。如果一个人肚子饿了，那么导致他获得食物的反应就处于一种准备状态，而其他不能使他得到食物的反应就不处于准备状态。如果一个人累了，那么强迫他去锻炼就是惩罚。把这种思想应用到学习上，就可以说，当学习者为学习某种行为（根据发展水平或以前习得的技能）做好了准备时，那么促进这种学习的行为将是一种奖励。当学习者从发展水平看还没有做好学习的准备或不具备必备的技能时，让他去学习就是一种惩罚，而且浪费时间。

练习律（law of exercise）

桑代克提出的练习律主要包括两个部分。

1.如果反应与刺激的联结被使用，它们就得到加强。换言之，仅仅是练习刺**境与反应之间的联结就可以加强二者之间的联结。练习律的这部分被称为使用律（law of use）。

2.如果反应与刺**境的联结被停止练习或停止使用其神经联系，它们的联结就会减弱。练习律的这部分被称为失用律（law of disuse）。

在这里桑代克把强化界定为当刺激重复出现时反应发生可能性的增加。如果一个刺激与反应之间的联结被加强，当下一次刺激出现的时候反应发生的可能性就会增加；如果一个刺激与反应之间的联结被减弱了，当下一次刺激出现的时候反应发生的可能性就会降低。简言之，练习律是说，我们因做而学习，因不做而忘记。

效果律（law of effect）

效果律是桑代克理论的核心。

桑代克的效果律是指刺激与反应之间的联结因反应结果而增强或减弱。如果一个反应发生后跟随着满意事态，联结就被加强；如果一个反应发生之后跟随着苦恼事态，联结就被减弱。在现代术语中，如果一个刺激引发一个反应，这一反应又引发了强化，刺激与反应之间的联结就会被加强；另一方面，如果一个刺激引发一个反应，而该反应导致惩罚，刺激与反应之间的联结就被减弱。

迁移的相同要素理论

是什么决定我们如何对一个从未遇到过的情境作出反应？桑代克认为是类比反应，也就是将该情境与先前遇到过的情境相联系而对该情境作出反应。熟悉情境与陌生情境之间的训练迁移量取决于这两个情境具有共同要素的数量。也就是说，只有当两个情境具有共同要素时，从一个情境向另一个的迁移才会发生。这就是桑代克著名的训练迁移的相同要素理论。通过这种理论，桑代克反驳了长期占统治地位的以形式训练说为基础的迁移理论。

桑代克理论的修正

1929年9月，桑代克站在康涅狄格州纽黑文召开的国际心理学大会讲台前，以“我错了”这句话开始他的演讲。这种坦诚展现了优秀科学实践极为重要的一面：如果数据要求这样，科学家必须改变他们的结论。

1930年后，桑代克基本上放弃了整个练习律。宣称仅仅重复就能增强联结的失用律，被发现是不准确的。而且，单纯的失用或不用没有在很大程度上削减联结。虽然桑代克坚持认为练习会引起较小进步，缺乏练习会引起少量遗忘，但实际上他在1930年后便放弃了整个练习律。

1930年后，早期的效果律被发现只有一半是正确的。正确的这一半是，跟随满意事态发生的反应被增强；而对于另一半，桑代克发现，惩罚一个反应对于联结强度没有影响。桑代克修正后的效果律认为，强化增加联结强度，而惩罚对联结强度没有影响。这一发现直到今天还具有极其深远的意义。桑代克关于惩罚效果的结论与几千年来的常识相反，他的结论总的来看对教育、儿童抚养和行为矫正有巨大的意义。

关于效果律，桑代克最初认为，令人满意的东西（奖励）和令人厌恶的东西（惩罚）产生的效果是相反的。然而后来的研究表明情况并非如此。奖励的确增强了联结，但惩罚不一定减弱联结。只有当替代性的联结被增强时，这些联结才会减弱。惩罚抑制了反应，然而，这些反应并没有被忘掉。惩罚不是改变行为的有效途径，因为惩罚没有教给学习者正确的行为，而仅仅让他们知道不要做什么。

（二）巴甫洛夫的经典条件反射理论

伊凡·彼得罗维奇·巴甫洛夫（Ivan Petrovich Pavlov，1849-1936）是俄国生理学家。1904年，由于他对消化的生理学研究而获得诺贝尔奖。事实上直到50岁时，他才开始涉足心理学领域的研究。巴甫洛夫给学习理论留下的宝贵遗产，是他做过的经典条件反射（classial conditioning）研究。

巴甫洛夫在彼得罗格雷德实验医学研究所当生理实验室主任的时候，主要从事有关消化的研究，研究消化的方法涉及对狗实施外科手术，使狗的胃液能经过一瘘管流到体外而被收集起来。在偶然的机会，他发现狗一看见饲养员给它们送食物，甚至一听到饲养员的脚步声就分泌唾液。巴甫洛夫意识到，饲养员并不是引起唾液分泌的自然刺激物，而是与食物建立了联系，而使狗获得了分泌唾液的力量。最初，他将这一反应称为“心理”反射，后称其为“经典条件反射”。

引起经典条件作用的必要成分包括：（1）无条件刺激（unconditional stimulus，简称UCS），它引发有机体自然且自动的反应；（2）无条件反射（unconditional response，简称UCR），它是由无条件刺激引发的自然且自动的反应；（3）条件刺激（conditional stimulus，简称CS），它不引发有机体的自然且自动的反应，因此是中性刺激。这些成分以某种方式混合时，就发生了条件反射（conditional response，简称CR）。要产生条件反射，条件刺激与无条件刺激必须多次配对。首先呈现条件刺激，然后呈现无条件刺激，而且呈现顺序非常重要。每一次无条件刺激出现时，就会出现无条件反应。最终，条件刺激可单独呈现，而且它会引起与无条件反应类似的反应。

图2-3 巴甫洛夫的经典条件反射

在一项实验中，巴甫洛夫把一只饥饿的狗拴在一个装置上，向它呈现一个肉团（UCS），狗开始分泌唾液（UCR）。动物若要建立条件反射，需要在出现无条件刺激之前反复地呈现一个原来为中性的刺激。巴甫洛夫经常用一个能发出嘀嗒声的节拍器作为中性刺激。实验刚开始时，节拍器的嘀嗒声不会引起唾液的分泌。当实验快结束时，狗在食物团出现之前就开始分泌唾液，对发出嘀嗒声的节拍器作出了反应。这时节拍器变成了条件刺激（CS），引起了和无条件反射相类似的条件反射（CS）。

消退（extinction）

条件反应要依赖无条件刺激的存在，这就是无条件刺激被称为强化物的确切原因。显而易见，没有无条件刺激，条件刺激永远不会形成引发条件反应的能力。同样，如果条件反射已经形成，反复呈现条件刺激，而不呈现无条件刺激，条件反射的强度会逐渐减弱，甚至消失，这个现象就是人们熟知的消退现象。

自然恢复（spontaneous recovery）

经过一段时间条件刺激总不出现，条件反射基本消退之后。如果随后再次呈现条件刺激，条件反射又会重新出现，我们就说条件反射在消退之后又自然恢复了。条件反射自然恢复后不会持续很长时间，除非再次出现条件刺激。条件刺激和非条件刺激的同时出现使条件反射得到全面的恢复。

图2-4 显示条件反应消退和自然恢复的典型曲线

泛化（generalization）

泛化指的是和条件刺激相似的刺激引起了条件反射。狗一旦建立起条件反射，听到节拍器每分钟嘀嗒嘀嗒地敲70次就分泌唾液，有时当节拍器敲击的速度变快或变慢，甚至钟表或计时器的嘀嗒声也能使它分泌唾液。新的刺激和条件刺激的相似性越小，泛化出现的可能性就越小。

辨别（discrimination）

辨别是和泛化互补的过程。当狗学会对条件刺激作出反应而对其他类似的刺激不作出反应时，辨别就出现了。要训练辨别能力，实验人员可以在条件刺激出现时呈现无条件刺激，而在其他类似的刺激出现时不呈现无条件刺激。例如，假定条件刺激是节拍器每分钟发出70次嘀嗒声，那么一出现这种声音就呈现无条件刺激，而出现其他节律（如每分钟50或90次）的嘀嗒声就不出现无条件刺激。

高级条件反射（higher-order conditioning）

刺激物一旦变成了条件刺激，就可以起到无条件刺激的作用，这个过程就叫作高级条件反射。如果狗一听到节拍器发出每分钟70次的嘀嗒声就作出分泌唾液的条件反射，那么节拍器就可以作为引起高级条件反射的无条件刺激。让新的中性刺激（如蜂音器）响几秒钟，紧跟着出现节拍器的嘀嗒声。试验几次后，狗一听到蜂鸣声就分泌唾液，此时，蜂鸣声就变成了第二级的条件刺激物。

高级条件反射是一个十分复杂、不易理解的过程。这个概念从理论上探讨是很有意思的，有助于解释一些社会现象（如测验失败）为什么可以引起条件性的情绪反应，如紧张和焦虑。在年纪较小时，失败也许只是一个中性事件，然后会逐渐地与家长、老师的批评联系起来。批评是引起焦虑的无条件刺激。通过条件反射，失败就能引起焦虑。与情境有关的线索也可以成为条件刺激。因此，当学习者走进即将举行测验的教室或当老师宣布不久就要进行考试时，学习者就会感到非常焦虑。

资料卡

情绪的条件反射

经典条件反射理论可用来解释某些机能失调的行为。刚入幼儿园的幼儿可能都会产生与新的经历有关的恐惧。在学年刚开始的时候，幼儿园教师可以安排一些活动，使幼儿对这些最初的恐惧减少一些敏感。教师可以安排几次入园前的参观活动，让幼儿有机会见到自己的老师和同学，见到自己的教室和写有自己名字的座位。开学头几天，教师还可以开展一些有意思但相对来说比较平静的活动，如让幼儿了解自己的老师、同学、教室和教学楼等。幼儿可以先游览教学楼，然后回到自己的教室，在教室里画画，和同学们谈谈自己所看到的一切。教师可以把幼儿带到办公室见园长、园长助理、校医和顾问等，让他们玩名字游戏，在游戏中幼儿先作自我介绍，然后设法回忆其他同学的名字。

这些活动属于非正规的脱敏方法。对一些幼儿来说，和幼儿园有关的线索都能引起焦虑。有意思的活动能够引起愉快的情绪，这些愉快的情绪和焦虑是互不相容的，把有意思的活动和有关幼儿园的线索联系起来，就可以减少后者所引起的焦虑。

（资料来源：戴尔·H.申克，《学习理论》，江苏教育出版社，2012）

二、斯金纳的操作性条件反射学习理论

斯金纳（B.F.Skinner，1904-1990），美国著名的行为主义心理学家，新行为主义的代表人物斯金纳早年立志成为一名作家，但遗憾的是早年他在写作方面的努力备受打击。然而在他有幸拜读了巴甫洛夫写的《条件反射》（Conditioned Reflexes）和华生写的《行为主义》（Behaviorism）以后，他开始对心理学产生了浓厚的兴趣。以巴甫洛夫经典条件反射理论和桑代克学习理论为基础，于1937年他提出了对当代心理学产生了深远影响的操作性条件反射原理，其相关的思想在今天的教育心理学，特别是儿童心理干预与矫正中依旧被广泛的应用。

图2-5 斯金纳的操作性条件反射

同大多数的行为主义心理学家一样，斯金纳的操作性条件反射理论也是建立在大量动物实验的基础上。为进行动物实验，斯金纳设计了符合其操作条件作用学习理论的仪器，即“斯金纳箱”（Skinner box）。它是一个大约0.3米高的立方体箱子，箱子内设有一个杠杆装置和一个食物盘，如果里面的动物按压杠杆，就会有食物落入盘中。斯金纳把一只饥饿的白鼠放入箱中，白鼠在饥饿的刺激下不停地活动，产生一系列的行为反应（R），其中偶然出现的按压杠杆的行为会为它带来少量食物（S），白鼠吃完食物后继续活动。偶然按压杠杆得到食物的反应-刺激会继续发生，这种在行为之后出现的刺激对行为本身是一种强化。白鼠在一次次获得食物刺激的奖励下，逐渐学会主动地按压杠杆来获取食物。这就是一个操作性条件反射形成的过程。

在20世纪30年代初，斯金纳发表了一系列论文，报道了他用动物做实验所获得的研究结果。在研究中他发现了操作性条件反射的各种成分。

斯金纳认为学习是“复杂情境中各种反应的重新组合”；条件反射是指由强化引起行为的加强。条件反射存在两种形式，一种是S型，另一种是R型。S型条件反射是巴甫洛夫的条件反射，其特征是强化（无条件）刺激和另一个（条件）刺激成对出现。这种条件反射使人们对引起有机体反应的刺激给予了重视。对刺激作出的反应就是人们熟知的反应性行为。

S型条件反射虽然能解释条件性情绪反应，然而，人的大多数行为在刺激一出现时就出现了，而非由刺激机械地引起。反应受结果控制，不受先前刺激的控制。斯金纳把这种行为称为R型条件反射，目的是要强调反应方面。从它作用于环境产生某种效果来看，这种行为是操作性的。

我们可能认为操作性行为是在“做中学”，事实上，我们在行为的过程中有许多学习正在发生着。与反应性行为（它在条件反射形成之前不会出现）不同，操作性行为出现的概率永远不等于零，因为必须作出反应才可能获得强化。强化改变了反应出现的可能性或频率。操作性行为作用于它们所在的环境，由于强化，它们出现的可能性会变大或者变小。

强化（reinforcement）起到使反应增强的作用，即提高了反应的效率，或者说使反应更有可能发生。强化物或强化刺激（reinforcing stimulus）指的是任何在反应之后出现的使反应增强的刺激或事件。强化物（奖励）的定义以他们产生的效果为基础，而非取决于意识、意图和目标这类心理过程。强化物不能事先确定，而必须由它们产生的效果来定，强化物是根据具体的情境来说的，它们只适合于某个时间某种情况下的个体。

正强化（positive reinforcement）包括反应之后出现一个刺激或把一些东西加入某个情境中，使该反应今后在该情境中出现的可能性提高的各种情况。正强化物（positive reinforcer）指的是反应之后出现的，使该反应今后在该情境中出现的可能性提高的刺激物。

负强化（negative reinforcement）是在反应之后取消某个刺激或从情境中抽走某些东西，他提高了该反应在该情境中出现的可能性。负强化物（negative reinforcer）指的是反应之后被取消的，使该反应今后在该情境中出现的可能性提高的刺激物。一些刺激物常常起到负强化物的作用，如强光、噪音、批评、讨厌的人、低分数等，因为移去这些事物的行为可以产生强化作用。正、负强化物都能产生同样的效果，即当刺激出现时，提高某个反应的出现频率。

诸如食物、水、住所之类的刺激物叫作一级强化物，因为它们是基本的生存条件。二级强化物是通过和一级强化物形成联结而变成条件的刺激物。通过和牛奶（一级强化物）形成联结，婴儿最喜欢奶瓶成为二级强化物。和不止一个强化物形成联结的二级强化物叫做一般性强化物。

惩罚（punishment）降低了今后对刺激作出反应的可能性。惩罚包括撤销正强化物和反应之后出现负强化物两种情况。惩罚压制反应，但无法使反应消除，当惩罚取消了，被惩罚的反应还可能恢复。惩罚的效果是十分复杂的。

资料卡

替代惩罚的方法

一是改变能够引起消极行为的辨别性刺激。例如，坐在教师后面的学生经常会调皮捣蛋，教师可以改变辨别性刺激，让这个违纪的学生移到前面的位子上去。

二是让不希望出现的行为继续表现，直到行为者满足为止。例如家长可以让孩子一直发脾气直到孩子疲劳为止。

三是用不理会的方法消除不希望出现的行为，这种方法对小的违纪行为很奏效。

四是把不相容的行为与正强化物建立条件反射。教师表扬富有成效的学习习惯，这有助于学生建立这些习惯的条件反射。

这种替代惩罚的方法的最大优点是让学生知道怎样做才是对的。

普雷马克原理（Premack principle）认为，提供价值较高的活动机会能够强化从事价值较低的活动。在这里，要根据在没有强化的情况下作出反应的数量或花在活动上的时间来定义“价值”。如果所安排的相倚活动的情况是第二个（相倚）事件的价值高于第一个（工具性）事件的价值，那么第一个事件发生的概率预计会提高（奖励假说）。如果第二个事件的价值低于第一个事件的价值，那么第一个事件发生的可能性应该降低（惩罚假说）。

由于强化物的价值会变化，所以这个顺序不是永远不变的。任何强化物，如果经常使用，都会导致饱和（satiation），使反应的可能性下降。应用普雷马克原理的教师需要定期观察学生，询问他们喜欢做的事情，以便检查他们的偏好。在制订计划时，最关键的一个环节就是预先确定在情境中哪个强化物可能最有效。

强化的安排指的是确定什么时候给予强化。

1.连续强化程式。指的是对每一个正确的反应都给予强化。在学习技能时，这种安排是有必要的。学生们在作出每个反应之后都得到有关他们工作正确性的反馈，连续的强化有助于确保学生不去学习各种错误的反应。

2.定时强化程式。使用定时强化程式，只对动物在固定时间间隔作出的第一个正确反应进行强化。例如，只有间隔3分钟的反应才会受到强化。在定时间隔的开始，动物反应很慢或根本就没有反应。在快接近时间间隔的末尾时，动物逐渐提高了反应的速度，显然它是预期到强化时刻的到来，这类反应在累计记录中形成一种模式，被称作定时扇贝。

3.定比强化程式。通过定比强化程式，动物作出的每一个第N次反应都会受到强化，在定比强化程式中，动物在受到强化之前必须作出一定数量的反应。

4.不定时强化程式。通过不定时强化程式，动物在不定的时间间隔结束时反应会受到强化。也就是说，它不同于定时强化程式有一个固定的时间间隔，相反，在不定时强化程式中，动物也许会在接受一次强化后即刻受到强化，也可能在其他一个不确定的时间受到强化。这种程式消除了定时强化程式中的扇贝效应，并产生了一个稳定的、适度的高反应率。

5.不定比强化程式。通过定比强化程式，动物在作出一定量的反应，如5个后会受到强化；用不定比强化程式，动物平均每5个反应会受到强化，因此，动物也许会连续2次受到强化，也可能作10次或15次反应都没有强化。

总的来说，连续强化对消退产生的抵制最小，并在训练期间产生的反应率最低。所有的部分强化程式都比连续强化对消退的抵制更大，并在训练期间有更高的反应率。一般而言，不定比强化程式产生的反应率最高，其后依次为定比强化程式、不定时强化程式、定时强化程式，最后是连续强化程式。

资料卡

行为塑造与矫正

通过操作性条件反射进行行为改变的基本方法是塑造（shaping），要塑造行为，教育工作者应该遵循以下步骤：

1.确定学生现在能做什么事情（起点行为）。

2.确定理想的行为。

3.识别学生所在环境中的潜在强化物。

4.把终点行为（第二步）分解成可以按顺序掌握的细小步骤。

5.经过不断的强化每一个接近终点的行为，使学生由起点行为逐渐向终点行为靠近。

塑造就是通过不断地纠正反馈，在行动中学习。

（资料来源：戴尔·H.申克，《学习理论》，江苏教育出版社，2012）

三、班杜拉的观察学习理论

阿尔伯特·班杜拉（Albert Bandura，1925- ），美国著名心理学家，新行为主义的主要代表人物之一，社会学习理论的创始人。班杜拉认为学习的发生可以通过两种途径：一种是实际去做的行动性学习，如前面已经讨论过的斯金纳的操作性条件反射；另一种是通过观察榜样（例如，现场的、象征性的电子产品或印刷品的）行为的替代性学习。不仅如此，来源于直接经验的一切学习现象实际上都可以依赖观察学习而发生，而在此过程中，学习者没有外显的行为。

班杜拉在他的一项研究中很好地证实了学习与表现之间的区别。在这个实验中，儿童在观看电影，而电影中的榜样正在击打或踢一个洋娃娃。在班杜拉的理论中，榜样可以是能够传递信息的任何事物，如一个人、一部电影、一个电视节目、一个示范、一幅画或一本指导书等。在这个例子中，电影放映的是一个成年榜样表现出的攻击性。第一组儿童看到榜样因攻击而受到强化；第二组儿童看到榜样因攻击而受到惩罚；第三组儿童看到榜样的攻击结果是中性的，也就是说，既没有受到强化也没有受到惩罚。然后，把一个洋娃娃放到这三组儿童面前并测量他们的攻击性。正如预期的那样，看到榜样因攻击而受到强化的儿童最具有攻击性；看到榜样因攻击而受到惩罚的儿童攻击性最小；而看到榜样既没有受到强化也没有受到惩罚的儿童攻击性介于前两组儿童之间。这项研究非常有趣，是因为它证实了儿童的行为会受到间接经验或替代经验的影响。换句话说，观察到他人经历的事情对他们自己的行为会产生影响。第一组儿童观察到的是替代强化，这促使了他们的攻击性；第二组儿童观察到的是替代惩罚，这抑制了他们的攻击性。虽然这些儿童没有直接体验到强化或惩罚，但这同样也改变了他们的行为。

上面描述的研究的第二个阶段是为了清楚阐明学习与表现的区别而设计的。在这个阶段给所有儿童都提供了一个吸引人的诱因，以鼓励他们重现榜样的行为，而且他们所有人也都这样做了。换句话说，所有儿童都学会了榜样的攻击性行为，但他们的表现有所不同，这取决于他们观察的榜样是受到强化、惩罚还是经验中性的后果。

班杜拉认为，观察学习随时都在发生。“当观察学习的能力充分发展后，谁都无法阻止人们去学习他们所看到的东西。”观察学习既不需要外显反应，也不需要强化。说观察学习独立于强化而发生，并不是说其他变量不会对它影响。班杜拉列出了影响观察学习的四个过程，现将其概括如下。

注意过程

从榜样那里学习一些东西之前，首先必须注意到榜样。班杜拉认为学习是一个持续不断进行的过程，并指出只有被观察到的才可被学习。这样问题就产生了，是什么决定了哪些东西将被注意到呢？观察者的选择性注意会受过去强化的影响。以前的强化能够使观察者形成对以后观察产生影响的知觉定式。榜样的各种特征也会影响到他们将在多大程度上被注意到。研究已经表明，如果榜样与观察者是相似的（例如，同性别、同年龄等）、受人尊重的、具有较高社会地位的、表现出较强能力的、被认为是强有力的、有吸引力的，那么他们就会更多被注意到。

保持过程

保持即在认知中对榜样的信息进行组织、复述、编码和转化，以便于存储在记忆中。信息是以意象和言语两种方式被符号化存储的。

观察学习假定有两种储存知识的形式：一种是表象的，另一种是语言的，当然也可以两者兼而有之。表象编码对于不易于用言语描述的行为十分重要，另外许多认知技能的学习都依赖于对规则或程序的言语编码。

班杜拉认为符号化是一种高级能力，它可使人类通过观察学习大量行为，这种被存储的符号使得延迟模仿，也就是在被观察之后很长时间利用信息的能力成为可能。

行为复现过程

行为的复现过程决定了习得的东西在多大程度上被转换成表现。一个人可以在认知上学习很多东西，但由于很多原因不能将这些信息转换成为行为。例如，由于一个人的成熟水平、受伤或疾病等原因，可能不具备做出某些行为所必需的运动器官。

班杜拉坚持认为，即使一个人具备了所有作出适当反应所需要的身体器官，但在观察者的行为能够与榜样的行为相匹配之前，必须存在认知复演阶段。在班杜拉看来，从榜样经验中保持下来的符号充当着模板的角色，也就是将行为与其进行比较的模板。在复演过程中，个体观察自己的行为并将其与所模仿经验的认知表征进行比较。观察到一个人自己的行为与其关于榜样行为的记忆之间的任何不一致都会激发矫正行为。这个过程会一直持续下去，直到观察者的行为与榜样的行为之间出现可接受的匹配为止。因此，模仿经验的符号保持形成了一个“反馈”环，用这个反馈环就可以通过自我观察和自我矫正将自己的行为与榜样的行为进行匹配。

动机过程

动机之所以会影响观察学习是因为人们更容易去注意、保持和复制那些他们认为重要的榜样行为。人们根据他们亲身的经历和榜样的行为结果而形成对行为结果的期望，人们还根据行为的价值来展开行动。他们所表现出的行为一般是那些他们认为能带来好处的行为，他们会千方百计地避免他们认为可能带来消极结果的行为。在不顾及行为结果对自己及他人的影响时，人们会选择那些他们认为富有价值的行为而避开不令人满意的行为。