感知(模式识别)是从传感数据判断模式的存在、类别,给出结构描述和关系描述的过程。目前以深度神经网络为主的模式识别方法只解决了初级感知(检测、分类)问题,属于高级感知层面的结构和关系理解已有一些研究进展但还没有解决,而结合知识进行模式识别和理解并把结果用于决策规划则属于高级认知的范畴,是未来要加强研究的方向。
作者
杏花
编辑
青暮
今年10月12日,中国人工智能大会(CCAI)在成都正式启幕,23位中外院士领衔,近百位学术技术精英共聚西南人工智能新高地,深入呈现人工智能学术研究,以及技术创新与行业应用的最新成果。中国人工智能学会副理事长、中科院自动化所副所长/研究员、IAPR/IEEE/CAA/CAAIFellow刘成林教授发表了题为《模式识别:从初级感知到高级认知》的演讲,向与会者介绍了模式识别的内涵、演化、研究现状以及未来值得研究的方向。
刘成林教授现任中国科学院自动化研究所副所长,中国科学院大学人工智能学院副院长。研究方向为模式识别、机器学习和文档图像分析。主要研究成果包括:在手写字符识别、分类器设计与学习、字符串识别、文档版面分析等方面提出一系列有效的方法;研制的文字识别算法在邮政分拣机、表格处理、文档数字化、网络信息检索等领域获得广泛应用。在国际期刊和国际会议上发表论文余篇,合著文字识别方面的英文专著一本。年获得国际文档分析与识别会议IAPR/ICDARYoungInvestigatorAward(青年学者奖),年获得国家杰出青年科学基金。中国自动化学会和人工智能学会会士,IAPRFellow,IEEEFellow.
本次演讲首先对模式识别领域做了一个基本的介绍,然后分析了模式识别的研究现状,介绍了一些模式结构理解方面的新进展,最后从结合认知的角度讲了将来有哪些值得研究的问题和方向。
以下是演讲全文,AI科技评论进行了不改变原意的整理。
1什么是模式识别?
1.模式识别的内涵
模式识别或机器感知,是人工智能领域的几个主要分支方向之一。人工智能是模拟人的智能,那么模式识别就是模拟人的感知功能。感知功能是人或机器最重要的智能之一,因为人或机器要从环境中获得信息,首先要通过感知,比如通过视觉识别场景、人物和文字,通过听觉跟人交流。心理学或者认知科学对感知或模式识别的定义是:把获得的刺激,也就是感知信号与脑子里所存储的信息进行匹配,从而判断所感知到的是什么内容。从计算机实现模式识别的角度,也有一些定义,大概可以分成两类:
一类是狭义的,就是根据某种客观标准对目标进行分类和标记,这里主要是指分类。
另一类是广义的,就是对数据中的目标、现象或事件进行分类或者描述。这个描述就是一个比较复杂的感知过程,因为描述实际上要对模式的结构进行理解。
综合起来,模式识别的定义就是,研究如何使机器模拟人的感知功能,从环境感知数据中检测、识别和理解目标、行为、事件等模式。
模式识别的基本流程是用传感器(比如摄像头)获取感知数据(如图像)后,对图像中的物体进行检测和定位,然后用一个模式分类器判断物体属于哪类,这是一个传统的模式识别流程。
如果要扩展到描述,就要对物体内部结构和图像中多个物体之间的关系进行分析,最后用自然语言句子描述出来。比如下图这个图像,它最后给出的结果可能是:“穿火箭队11号球衣的姚明与教练站在一起”,如果不知道这个人是谁,结果可能是“两个身高相差很大的人站在一起”,这就是一个比较复杂的模式理解过程。
模式识别和感知几乎是同义词,只是意思侧重不同,“感知”侧重应用,“模式识别”侧重技术和方法。现在说感知和认知也比较多,所以我们有必要把相关概念澄清一下。
模式识别和感知的内容都比较宽泛,它的处理对象是传感数据(图像、视频、音频等),从中判断模式(纹理、物体、行为、事件)的存在、类别和具体描述(如部件及部件之间的关系)。
比较初级的感知,如检测或者分类或者对纹理进行判断,需要比较少的知识,我们把它称为初级感知。比较高级的感知就是要对这个模式有比较深入的理解,而且可能需要用到一些先验知识。
认知一般是指基于知识进行逻辑推理,其范畴包括知识的获取、推理、语义理解等,很多时候认知与感知混在一起,比如我们与人交流时,眼睛同时在看,耳朵同时在听,并且脑子同时在思考。即使不看不听,闭眼思考时,也不是一个纯粹的逻辑推理过程,因为脑子在思考时也会浮现一些图像,所以感知与认知有很多交叉。这个交叉的部分可以看作是高级感知,因为它要用到一些知识对模式进行深入的理解。更进一步,如果到高级认知,则是一些跨模态或者跨任务的比较复杂的推理过程,或者基于语义的应用(如回答问题、人机交互、自动驾驶决策等)。
2.模式识别的方法演化
模式识别领域与人工智能领域的发展几乎初步,从上世纪50年代以来提出了很多方法。我们看到,年最早发表关于模式识别的论文。50年代到60年代,主要是基于统计决策的方法,也就是统计模式识别。60年代末开始提出句法模式识别,70年代到80年代,句法模式识别或者结构模式识别都是研究重点,当然统计模式识别也在不断向前发展。80年代中期,多层神经网络引起了广泛