人类社会已经进入智能时代,智能时代的社会发展催生了大量的智能化应用,智能化应用对机器的认知智能化水平提出了前所未有的要求,而机器认知智能的实现依赖于知识图谱技术。
知识图谱自年提出至今,发展迅速,如今已经成为人工智能领域的热门问题之一,并在一系列实际应用中取得了较好的落地效果,产生了巨大的社会与经济效益。以知识图谱为代表的符号主义有日渐复兴的迹象,成为以深度学习为代表的联结主义在近几年大发展后人工智能另一个值得期待的方向。
大数据的发展与应用离不开符号知识
经过从年开始的一波大数据浪潮,各行各业都积累了非常多的数据。但是,数据并没有像我们想象的那样创造出我们期待的价值,很多时候甚至变成负担,不仅需要增加运维人员,还需要增加设备来存储这些数据。数据如果不能够变现,那就是负资产。然而,大数据变现困难重重,就好比高射炮打蚊子,大材小用。缺乏有效的智能化手段是阻碍大数据价值变现的根本原因。
那么,我们需要怎样的智能化手段?计算机解决问题一直以来有两个基本的观念,一是靠统计管理解决问题,二是靠符号推理解决问题。例如,如果问3乘以4等于几?很多人可以脱口而出答案是12。这是因为大家在小时候都记住了九九乘法运算表,已经把3乘以4跟12建立了非常强的统计关联。所谓题海战术,其实就是建立题目与解题之间较强的统计关联来解决问题。当然,很多时候还需要用符号推理来解决问题。例如,如果问乘以等于几?估计很少有人能够立刻给出答案。这时,大家通常会拿出笔和纸,把符号写下来,然后运用学习过的乘法运算规则一步步求解,这实际上就是利用了符号推理在解决问题。
事实上,人工智能的发展从20世纪90年代后期开始,以挖掘统计中统计模式为主,这也成就了今天的机器学习。但是,仅用统计学习不足以支撑智能化实现。符号知识对于智能化实现是不可或缺的,因为符号知识使机器具备可解释能力,也使机器具备语言“理解”能力。因此,我们必须让机器学会利用符号知识解决问题,实现认知智能。
所谓让机器具备认知智能,其核心就是让机器具备理解和解释能力。这种能力的实现与知识库、符号化的知识是密不可分的。一直以来,社会科学家还不能精准回答什么是理解、什么是解释。但是,人工智能的研究迫切需要定义这些问题。在我看来,所谓的理解离不开知识库,机器理解数据在某种程度上就是建立起从数据到知识库中实体、概念、关系的映射。解释数据,是指利用知识库中实体、概念、关系解释现象的过程。
知识工程是认知智能的核心
既然符号知识这么重要,那么符号知识在应用中的具体抓手到底是什么?符号知识的一系列应用体现为新一代的知识工程。知识工程是以专家系统构建为核心内容,研究知识表示、处理和应用的方法和开发工具的学科。在大数据时代,知识工程实际上是由知识图谱来引领的。知识图谱富含实体、概念、属性、关系等信息,使得机器理解与解释成为可能。简单来说,知识图谱就是大规模语义网络,这是大数据时代知识表示的重要方式之一。但是,知识图谱发展到今天已经不仅仅作为语义网络,而是作为一个技术体系,这是大数据时代知识工程的代表性进展。回顾过去,知识图谱是从符号主义演化而来的,符号主义是人工智能最早的一个思潮和流派。符号主义的主要观点包括:认知就是计算;知识是信息的一种形式,是构成智能的基础;知识的表示、推理和运用是人工智能的核心。
传统知识工程在规则明确、边界清晰、应用封闭的应用场景取得了巨大成功。例如,AlphoGo很成功,正是因为下棋是封闭的,它只需要使用下棋的规则,绝对不会用其他开放世界的知识。那么,为什么人工智能应用会有这么苛刻的条件?这是因为传统知识工程严重依赖专家和人的干预。但是,隐性知识、过程知识等难以表达。例如,如何表达做蛋炒饭的知识?老中医看病用到了哪些知识?而且,领域知识的形式化表达也较为困难。专家知识不可避免地存在主观性,不同专家之间知识可能存在不一致性。认知心理学里有一个家族相似性的理论,比如一个杯子矮一点可能还叫杯子,矮到一定程度上到底是叫杯子还是叫碗就说不清楚了。也就是说,不同人看同一个事物得出的结论是不一样的。此外,知识表达存在模糊性,而且难以完备,缺漏是常态。
传统知识工程到了大数据时代,就不再适应大数据时代的应用需求了。那么,大数据时代的应用有什么特点?以谷歌、百度搜索引擎为例,这是一种典型大规模开放性应用,我们永远都不知道用户下一个搜索的关键字会是什么,用户不断在创造新的搜索需求。但是,用户对精度要求不高,搜索引擎从来不需要保证每个搜索的理解和检索都是正确的。此外,大部分搜索的理解与回答只需要实现简单的推理。
那么,互联网时代大规模开放性应用需要什么?答案是需要足够量、足够宽以及覆盖面足够广,但还要非常简单、非常轻量级的知识表示。因此,谷歌公司提出了知识图谱,以满足搜索中知识应用的需求。知识图谱跟传统知识功能的本质不同,就是在于它使大规模、自动化的知识获取成为可能。
知识图谱助力行业智能化升级与转型
大规模知识图谱的出现基本上宣告了大数据知识工程时代的到来,传统知识图谱的瓶颈问题也将被突破。知识图谱发展到今天已经越来越多地承担起各行各业升级和发展的使命,可以说,整个大规模知识工程面临前所未有的机遇,当然也存在不少挑战。
那么,知识图谱对各行业有什么用?首先,对很多行业大数据来讲,它可以补齐缺失的因果链条。万事万物都处在一个复杂的因果网络中。很多业务系统产生的数据只是用户最终行为结果的数据,但缺乏产生这些数据的背景或原因,知其然不知其所以然。例如,美国一家大型超市经过调查发现一个有趣的现象,购买尿布的顾客经常会同时购买啤酒。于是,超市就在尿布旁边放上啤酒,结果尿布销量大增,啤酒一抢而空。啤酒和尿布,看似毫无关联的两件事,实际上有很强的统计关联,蕴藏着巨大的商机。如果我们不满足于只是发现啤酒和尿布之间存在较强的统计关联,而是进一步追问为什么,就会更有意思。我们会发现,啤酒和尿布之间的统计关联是有原因的,买尿布意味着家里有新生儿,产妇刚刚生产行动不便,因此都是父亲去买尿布。一个要去买尿布的新手父亲,家里刚刚有了新生儿,自然很紧张,因此很可能买啤酒缓解压力。如果能够知道用户是出于什么原因产生这些数据,那么这些数据的威力将会充分发挥出来。由此可见,如果能把场景和背景知识建立出来,那么数据就会产生非常巨大的价值,这就是现在整个互联网行业在做的事情。其次,知识图谱可以对碎片化的数据进行关联和融合。知识图谱为融合提供元数据,使得自主、普适融合成为可能。此外,知识图谱能够深化行业数据的理解与洞察。基于行业知识图谱,可以形成行业数据理解能力,实现数据中的实体、概念、主题认知,实现可视化洞察。
在各行业的智能化发展进程中,AI赋能成为传统行业智能化升级和转型的一个基本模式。传统行业面临非常多的机遇,增加收入、降低成本、提高效率和安全保障等一系列核心问题都将受益于智能化技术。
●增加收入
通过构建电商认知知识图谱,将用户-场景-货物进行有效的关联,可以挖掘出更多的用户标签,精准感知用户场景,从而使电商搜索和推荐更加准确,有效提高货品转化率。根据招投标信息构建的商情图谱,并基于商情图谱为用户推荐相似招投标项目,能让用户发现商机。基于知识图谱推理,还可以帮助客户发现更多的二次商机。这样既能有效提升企业的业务量,又能增加企业营收。
●超市减少成本
现在,智能客服系统已经在很多行业大规模应用,尤其是在金融、电商领域以及电信行业等。智能客服的实现正是依赖于行业知识图谱,让机器能真正听懂用户的话,极大地减少企业的客服人力成本。一些大型企业和政府机构每天都会产生大量工单,对于相同产品会存在大量重复采购、同类产品故障单重复出现等问题。构建供应商的产品图谱,自动挖掘抽取工单信息,并通过关联分析检测重复工单。例如,北欧部门遇到了一个产品故障,该产品故障同时在北非出现并被解决。通过重复工单检测即可复用该经验,从而减少人力成本。
●提高效率
司法知识图谱将法律文书信息以结构化形式呈现,通过抽取案件文书中相关信息,判断案件繁简程度,进行繁简分流。这能帮助从业人员快速地在线检索相关的法务内容,提高法院审判工作质量和效率。
将企业内部数据整合,打通数据孤岛,构建企业知识图谱,可以把人员、项目、产品等关联起来。基于知识图谱的语义搜索能力,能使搜索结果更准、更全。基于图谱的个性化推荐系统,可以实现知识精准传播和主动传播,让知识找人。这些应用都促进了沉淀知识的有效使用,极大地提高了工作效率。
●降低风险
银行利用知识图谱可以进行借贷反欺诈。把与借款人相关的所有的数据源打通,并构建包含多数据源的知识图谱,把借款人的消费记录、行为记录、关系信息、线上日志信息等整合到反欺诈知识图谱里,从而进行分析和预测,可以挖掘识别出欺诈案件,如身份造假、团体欺诈、代办包装等。
知识图谱还可以进行合同风险识别。通过自动提取文档内容的关键信息,协助企业工作人员完成内容一致性检查等工作,自动生成对比结果报告。知识图谱能够自动识别数十种常见内置风险,根据不同行业特性支持个性化定制风险审核项。目前,知识图谱已经广泛应用于金融、制造、通信、法律、审计、政府等多种文字密集型行业,有效帮助识别风险。
当然,我们现在还面临很多挑战。让机器“掌握”一定的知识,并利用这些知识更好地为人类服务已经是服务机器人产业乃至整个人工智能产业进一步发展所面临的重大问题。首先是知识表达困难重重。例如,如何在一个统一的表示空间表达多模态的数据与知识?如何将知识的向量表示与符号表示相融合?这个问题本质上是大规模符号接地(SymbolGrounding),这是我们现在正在开展的工作,这跟图片、语音、视频都有关系。其次是知识获取任重道远。虽然大数据时代为知识获取带来了量的提升,但是质的方面还有很大的上升空间。元知识获取依旧缺乏有效的方法,常识在语料中的稀疏造成了常识获取的巨大困难。此外,知识库的应用仍需深化,自动知识适配仍然十分困难。如何协同各类不同的知识表示形成有效的推理机制,有待进一步研究。
总之,知识的沉淀与传承,铸就了人类文明的辉煌,也将成为机器智能持续提升的必经道路。只是对机器而言,知识的沉淀变成了知识的表示,知识的传承变成了知识的应用。
肖仰华,复旦大学计算机科学与技术学院教授,博士生导师,知识工场实验室负责人。
作者:肖仰华
本文来自《张江科技评论》