人类对物理现实的规律很早就有理解。例如,如果我掉了一支笔,你知道它不会在半空中盘旋,而是会掉到地板上。同样地,如果钢笔在下落的过程中遇到书桌,你知道它不会穿过表面,而是会落在上面。
物理物体的这些基本属性对我们来说似乎是直观的。三个月大的婴儿就知道一个看不见的球仍然存在,而且球不能从沙发后面传送到冰箱顶部。
类似于婴儿对周围环境的理解,一种计算机模型可以模拟物体对物理力的反应。
尽管人工智能系统已经掌握了国际象棋和扑克等复杂的游戏,但它们尚未证明婴儿在出生后的头几个月里,要么是天生具备的,要么是看似不费力气就能够学会“常识性”知识。从某种程度上来说,我们观察世界、与世界进行交互的能力从很小的时候就已经具备了。科学家们也希望构建出这种“像婴儿那样学习的机器”。
7月11日,谷歌母公司Alphabet的子公司DeepMind的一个团队在《自然人类行为》(NatureHumanBehaviour)杂志上发表了一项研究,该研究朝着如何将这些常识整合到机器中以及了解其在人类的发展方向迈出了一步。该研究团队提出了一个“直觉物理”(intuitivephysics)模型,认为可将婴儿与生俱来的固有知识整合到人工智能系统中。他们还创造了一种测试该模型的方法,类似于用于评估人类婴儿认知能力的方法。
ADEPT人工智能的原理
通常情况下,在人工智能研究中普遍存在的深度学习系统会通过训练来识别场景中的像素模式。人工智能可以识别一张脸或一个球,但它们不能预测当这些物体被放置在一个动态场景中(它们移动并相互碰撞)会发生什么。
ADEPT模型(ApproximateDerenderer,ExtendedPhysics,andTracking),通过记录模拟中的物体以意想不到的方式移动时的“惊奇”来展示对一些基本的“直觉物理”的理解。“一个物体是矩形还是圆形,是卡车还是鸭子,都没关系。ADEPT只是看到有一个物体处于某个位置,以某种方式移动,从而做出预测,”科学家Smith说。“同样,婴儿在进行物理预测时,似乎也不太在意形状之类的属性。”
研究团队用大约30万段视频训练PLATO(一个能学习直观物理的深度学习系统),使其能够了解一个物体的行为:一个球落下,反弹到另一个物体上,或者滚到障碍物后面,然后又重新出现在另一边。
在跟踪对象时,ADEPT模型在每个视频帧输出一个与“惊讶”(surprise)级别相关的信号——信号越大,惊讶程度越大。如果某个对象与模型的预测严重不匹配(例如,突然消失或瞬间转移),它的惊讶程度将会激增。PLATO就像一个婴儿一样,当它看到一个物体穿过另一个物体而没有受到撞击而向后反弹时表现出“惊讶”。它比传统AI系统表现得要好得多,传统AI系统接受的是相同的视频训练,但没有灌输物体的持久性(即使不在视野中,物体仍然存在)这种固有知识的基本概念。
领导这项研究的DeepMind的科学家路易斯·皮洛托路(LuisPiloto)在新闻发布会上说:“心理学家认为,人们使用物体来理解物理世界,所以如果我们建立一个这样的系统,我们将最大限度地提高人工智能模型真正理解物理世界的可能性。”这项新研究试图以发展心理学的专家认为婴儿首先表现出对物体是什么的先天意识的方式来理解直觉物理。然后,孩子通过观察物体在不同地方的移动来学习控制物体行为的物理规则。
科学家们认为:“我们生来就有知识,但知识并不完美....然后,通过经验和环境,婴儿——就像这个计算机模型一样——阐述了这些知识。”
研究DeepMind的科学家强调,在这个阶段,他们的工作还没有做好推进机器人、自动驾驶汽车或其他热门AI应用的准备。他们开发的模型在被纳入人工智能系统之前,需要对涉及现实场景的物体进行更多的训练。随着这个模型变得越来越复杂,它也可能为发展心理学研究婴儿如何学会理解世界提供信息。近年来,发展心理学的专家一直在争论常识是习得的还是天生的,这可以追溯到瑞士心理学家让·皮亚杰(JeanPiaget)关于认知发展阶段的工作。
值得介绍的是论文合著者吴佳俊博士。他本科毕业于清华大学,是清华交叉信息研究院姚华班级学生,之后在MIT相继获得硕士和博士学位。目前是斯坦福大学计算机科学系助理教授。吴佳俊在本科期间连续三年成绩排名全年级第一,曾全票通过获清华大学本科生特等奖学金、蒋南翔奖学金等荣誉。吴佳俊在本科期间就有多篇论文发表于世界顶级会议与期刊,包括3篇CVPR,一篇JAMIA等。