走向真正的人工智能 - 好文

张钹院士在CCF-GAIR 2018的大会报告

作者按：

2018年6月29日-7月1日，中国深圳，宝安区前海华侨城JW万豪酒店。在炎炎暑气和阵阵夏雨的交织激荡之中，在学界精英与业界领袖的见证参与之下，由中国计算机协会CCF主办、雷锋网和香港中文大学（深圳）联合承办的「CCF-GAIR」全球人工智能与机器人峰会顺利召开。

大会得到深圳市宝安区政府的大力指导，是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流盛会，旨在打造国内人工智能领域最具实力的跨界交流合作平台。本次大会包含AI前沿主会场和11个分会场，涉及到计算机视觉、智能驾驶、机器人应用等诸多领域，共吸引超过2500余位AI业界人士参会，其中包含来自全球的140位在人工智能领域享有盛誉的顶级嘉宾。

开幕式当天的AI前沿主会场上，中国科学院院士、清华研究院院长张钹教授就当前AI发展的技术背景和历史阶段，率先做了“走向真正的人工智能（Towards A
Real Artifitial
Intelligence）”大会报告。张钹院士主要是从事人工智能理论、人工神经网络、遗传算法、分形和小波等理论研究，以及把上述理论应用于模式识别、知识工程、智能机器人与智能控制等领域的应用研究。

在报告中，张钹院士就当前火热的AI技术指出“我们离真正的人工智能还有很长的一段路要走（We still have a long way from the
real AI）”。围绕这一点，张钹院士用40分钟的时间，回答和解读了关于“真正的人工智能”的三大问题：

*
第一，什么叫做真正的人工智能？我们的目标是什么？

*
第二，为什么我们需要真正的人工智能？

*
第三，我们如何走向真正的人工智能？

针对这三个问题，张钹院士首先评论了当前AI技术发展取得的卓越成果，并分析了AI在5个限制条件下的主要应用场景。针对这5个限制条件，张钹院士强调了“有理解的人工智能”的重要性，并给出了一些可能的解决方案，比如在机器中引入“常识”等。在报告的最后，张钹院士引用《列子汤问》中周穆王与偃师的故事来类比当前AI发展的现状，并总结道：

“当前人工智能技术的发展正在起点，正在路上，也将永远在路上，对于此每个人都要做好充分的思想准备，而这就是人工智能的魅力所在。大家为什么这么重视人工智能？就是因为它永远保持着在路上的发展状态，永远吸引我们去解决不断涌现的新问题。这些问题一旦解决，人类的社会进步和生活方式就将发生本质上的改变，这就是吸引我们持续探索人工智能潜力的重要原因。”

张钹院士如此勉励大家道：“我们的结论是什么呢？我们的结论是人工智能刚刚起步，离真正的人工智能还很遥远，大家共同努力吧，我们任重而道远。

下面详细介绍张钹院士本次报告的主要内容。

人工智能当前取得的卓越成就

人工智能技术发展至今取得了许多引人瞩目的成就，张钹院士指出了AI历史长河中的五个重大事件：

1、1997年，电脑“深蓝”战胜国际象棋世界冠军棋王“卡斯帕罗夫”；

2、2011年，IBM Watson在电视知识竞赛（Jeopardy）中打败了美国的两个前冠军选手Ken Jennings和Brad Rutter；

3、2015年，微软在ImageNet上做图象识别任务的误识率略低于人类，人类为5.1%，机器为4.94%；

4、2015年，百度、讯飞在单句语音识别上的误识率低于人类，人类为4.0%，机器为3.7%；

5、2016年，AlphaGo击败世界围棋顶级选手李世石。

这五件事情均为机器在一定领域和范围内超越人类，究其成功原因，目前普遍认为主要归结于三个因素：

一是大数据（Big Data），大数据好比下锅的米，巧妇难为无米之炊。

二是算力（Great Computing Power），算力好比锅下的火，火候到了才能把生米做成熟饭。

三是算法（Clever AI Algorithms），算法好比锅中的水，有水有米才好做饭。

张钹院士认为虽然上述三个因素不可或缺，但“合适的应用场景（Appropriate Application
Scenarios）”同样是不容忽略的重要因素，这个因素是说当前所有取得的重要成就都必须依托于一个确定的和合适的应用场景，脱离了这个特定的场景人工智能就无法发挥出应有的效力。

二、人工智能发展存在的五条限制

上述的五件事虽然所处的领域和应用场景不同，所面临和解决的问题也不同，但张钹院士认为它们都受到了完全一样的五个条件的制约，或者说它们都满足5个完全一样的条件。

1、“Having rich data or knowledge”

2、“Certain information”

3、“Perfect information”

4、“Static”

5、“Single task and finite domain”

首先你必须有丰富的数据或者丰富的知识，如果这两件东西没有，或者很少，你不用来谈人工智能，因为你无法实现无米之炊。人工智能唯一的两个资源，一个是数据，一个是知识。其它还有确定性信息、完全信息、静态的、单任务和有限领域。这五个条件里面任何一个条件不满足，现在的人工智能做起来就会非常困难。

“在这样五个限制条件下的人工智能，就是照章办事，不需要任何的灵活性，显然这样的人工智能不是真正的人工智能。”

为了进一步解释上述五个限制条件下人工智能的本质，张钹院士进一步阐述了五个具有代表性的应用场景“下象棋（Deep
Blue/Chess）”、“Watson/Q-A”/、“Image recognition”、“Speech recognition”、“AlphaGo”。

1、Deep Blue：rich chess masters’ knowledge；information game；established rules

2、Watson : rich knowledge；the question is clear；the answer is only one；finite
domains；

3、Image recognition: rich data-ImageNet; finite domain;

4、Speech recognition: rich data; low noise; finite domain;

5、AlphaGo: rich Data; the same as Deep Blue

下象棋是完全信息博弈，信息完全和确定，没有问题。其次，它遵循着完全确定的游戏规则演化，这种情况也叫做静态。Watson机器人也是这样，Watson 是什么样的对话问题呢？它为什么选择知识竞赛呢？我们知道知识竞赛提的问题都没有二义性，都是明确的，它的答案总是唯一性的。所以这样的问答对机器人来讲是非常容易的。它涉及的领域虽然比较宽，但也是有限的，包括大家觉得很玄乎的围棋，也完全符合上面五个条件，所以对计算机来说也是很容易的。目前计算机打麻将就不行，因为牌类是不完全信息博弈，所以比棋类要难。

目前的人工智能技术在以下领域都可以找到它的应用，它们是交通、服务、教育、娱乐等等，但需要强调是这些领域里面只有满足上述五个条件的事情，计算机做起来才会容易，如果不满足这些条件，计算机就做起来就很困难了。

大家常常关心什么样的工作会被机器所替代，这里可以明确告诉大家，满足这五个条件的工作，总有一天会被计算机取代。简而言之就是那些照章办事，不需要任何灵活性的工作，比如说出纳员、收银员等等。在座的所有工作都不可能被计算机完全代替，但不排斥你的工作中有一部分会被计算机取代，老师、企业家等的工作不可能被计算机完全代替。

三、真正的人工智能

“为什么会存在上述的五个限制条件？原因在于我们现在的人工智能是没有理解的人工智能（AI without understanding）。”

以IBM
Watson机器人为例，它是一个对话系统，现在所有做的对话系统都跟这个差不多，但是Watson做得更好些，它的模型中有知识库，有推理机制。Watson除了专家知识之外，还有大量互联网上大众的知识，还运用了多推理机制。它里面有哪些知识呢？有很多，包括百科全书、有线新闻、文学作品等等。所有的知识用纸质来表示有2亿页，用存储量表示达到了4TB。它能回答什么问题呢？用两个例子来说明。

第一个问题：1974年9月8日谁被总统赦免？

答案：Nixon

这对美国人来讲很好回答，同样对计算机来讲也很好回答，你用这几个关键字「1974年9月8日」、「被总统赦免」，就能在文献里头查出来是谁，他就是尼克松（Nixon）。也就是说根据问题中的关键字，可以在已有的文献里头直接找到答案，这就是一般的网络检索方法。

第二个问题：荧光粉受到电子撞击以后，它的电磁能以什么方式释放出来？

答案：光或者光子

使用「荧光粉」、「电子撞击」、「释放电磁能」等关键词，同样可以找到答案：「光或者光子」。这种方法就是平时网络搜索的原理，应该说并没有什么智能。像在维基（Wikipedia）的文档中存在一系列根据某些确定规则来使用关键字或者短语组织起来的问题及答案。

但是要回答下面的问题就需要“智能”了，

第三个问题：跟智利陆地边界最长的是哪个国家？

答案：阿根廷

跟智利有陆地边界的国家可以检索到，它们是阿根廷和玻利维亚，但是谁的边境长？通常无法直接查到。Watson具备一定的推理能力，它从边界间发生的事件、边界的地理位置等等，经过分析推理以后就可以找出答案，它就是阿根廷。

第四个问题：跟美国没有外交关系的国家中哪个最靠北？

答案：北朝鲜

第四个问题和第三个问题属于同一种性质，跟美国没有外交关系的国家有4个，只要检索就行了。但是哪个国家最靠北，并没有直接答案，但可以从其它信息中推导出来，比如各个国家所处的纬度、气候寒冷的程度等等分析出来，答案是北朝鲜。

“智能体现在推理能力上。但是很不幸，现在的对话系统推理能力都很差。Watson系统好一些，但也很有限。换句话说，现在的对话系统离真正的智能还很远。”

这里展示的是一个中国记者向Sophia机器人提出的四个问题，以及Sophia给出的答案。通过索菲亚机器人的表现就可以看出来，索菲亚的对话是面向开放领域的，你可以随便提问，但问题也立马就暴露出来了。大家在电视上看到索菲亚侃侃而谈，问什么问题都能答得很好，这里面是有玄机。如果你的问题是预先提出来的，因为里头有答案，因此回答得非常好，在电视上给大家演示的都是这种情况。

如果临时提问题，问题就出来了。在上面的四轮问答中，Sophia只答对了一个。「你几岁了」，这个问题很简单，它答不上来，它的回答是「你好，你看起来不错」，答非所问，因为它不理解你所问的问题。只有第二个问题它是有准备的，里面有答案，所以答得很好。「你的老板是谁」，这个肯定它有准备。第三个问题，「你能回答多少问题呢」？它说「请继续」，没听懂！。再问第四个问题，「你希望我问你什么问题呢」？它说「你经常在北京做户外活动吗」？这就告诉我们，现代的问答系统基本上没有理解，只有少数有少量的理解，像Watson已经算是比较好的。

“为什么会这样？因为现在的人工智能基本方法有缺陷，我们必须走向具有理解的人工智能（AI with understanding），这才是真正的人工智能。”

这里提出的概念跟强人工智能有什么区别？首先说它在这点上是相同的，即都试图去准确地描述人类的智能行为，希望人工智能跟人类的智能相近。这也是强人工智能的一个目标，但是强人工智能只是从概念上提出来，并没有从方法上提出怎么解决。大家知道强人工智能提出了一个最主要的概念，就是通用人工智能。怎么个通用法？它没有回答。现在提出来的有理解的人工智能是可操作的，不只是概念，这是其和强人工智能的主要区别。

四、如何让机器做到“智能”

人机对话的时候，机器为什么不能理解人们提的问题。看一个例子就知道了，我们在知识库里把「特朗普是美国总统」这个事实，用「特朗普-总统-美国」这三元组存在计算机里面。如果你提的问题是「谁是美国总统」？机器马上回答出来：「特朗普」。

但是你如果问其它有关的问题，如「特朗普是一个人吗」？「特朗普是一个美国人吗」？「美国有没有总统」？它都回答不了。它太傻了，任何一个小学生，你只要告诉他特朗普是美国总统，后面这几个问题他们绝对回答得出来。机器为什么回答不了后面的三个问题呢？就是这个系统太笨了，没有常识，也没有常识推理。既然特朗普是美国的总统，美国当然有总统，但是它连这一点常识的推理能力都没有。

所以要解决这个问题，必须在系统中加上常识库、常识推理，没有做到这一步，人机对话系统中机器不可能具有理解能力。但是大家知道，建立常识库是一项「AI 的曼哈顿工程」。大家想想常识库多么不好建，怎么告诉计算机，什么叫吃饭，怎么告诉计算机，什么叫睡觉，什么叫做睡不着觉，什么叫做梦，这些对人工智能来说都非常难，美国在1984年就搞了这样一个常识库的工程，做到现在还没完全做出来。可见，要走向真正的人工智能，有理解的人工智能，是一条很漫长的路。

深度学习、神经网络主要用来模拟感性行为，感性行为是一般很难采用符号模型，因为感性（感觉）没法精确描述。比如「马」，怎么告诉计算机什么叫做马？你说马有四条腿，什么叫做腿？你说细长的叫做腿，什么叫细？什么叫做长？没法告诉机器，因此不能用符号模型。

目前用的办法就是现在说的神经网络或者准符号模型，也就是用人类同样的办法，学习、训练。我不告诉机器什么叫做马，只是给不同的马的图片给它看，进行训练。训练完以后，然后再用没见过的马的图片给它看，说对了，就是识别正确了，说不对就是识别不正确，如果90%是对的，就说明它的识别率是90%。

后来从浅层的神经网络又发展到多层的神经网络，从浅层发展到多层有两个本质性的变化，一个本质性的变化就是输入，深层网络一般不用人工选择的特征，用原始数据就行。所以深度学习的应用门槛降低了，你不要有专业知识，把原始数据输进去就行了。第二个是它的性能提高很多，所以现在深度学习用得很多，原因就在这个地方。

“通过数据驱动建立的系统能不能算是有智能呢？必须打一个很大的问号。”

就是说你做出来的人脸识别系统甚至识别率会比人还高，但是还不能说它有智能，为什么呢？这种通过数据驱动做出来的系统，它的性能跟人类差别非常大，鲁棒性很差，很容易受干扰，会发生重大的错误，需要大量的训练样本。

刚才已经说过，给定一个图像库我们可以做到机器的识别率比人还要高，也就是说它可以识别各种各样的物体，但是这样的系统，我如果用一种噪声输给它，我可以让它识别成为知更鸟，而用另外的噪声输给它，可以让它识别成为猎豹。

“换句话讲，这样的系统只是一个机械的分类器，根本不是感知系统。”

也就是说它尽管把各种各样动物分得很清楚，但是它不认识这个动物，它尽管可以把猎豹跟知更鸟分开，但是它本质上不认识猎豹和知更鸟，它只到达了感觉的水平，并没有达到感知的水平，它只是「感」，没有上升到「知」。

“我们的结论是，只依靠深度学习很难到达真正的智能。（It’s difficult to lead to real intelligence only
based on deep learning/data-driven）”

这是很严峻的结论，因为如果有这样的问题，在决策系统里头是不能用这样的系统的，因为它会犯大错。我在很多场合讲过，人类的最大的优点是「小错不断、大错不犯」，机器最大的缺点是「小错不犯，一犯就犯大错」。这在决策系统里头是不允许的，这就显示了人跟机器的截然不同。

人非常聪明，所以他做什么事都很灵活，这就使得他很容易犯各种各样的小错。但是他很理性，很难发生大错。计算机很笨，但是很认真，小错误绝对不会犯，但是它一犯就是天大的错误。刚才把那个把噪声看成知更鸟，这不是大错吗？你把敌人的大炮看成一匹马，不是大错吗？但是人类不会发生这种错误，人类只会把骡看成驴，但是计算机的识别系统会把驴看成一块石头。

“原因在哪儿？原因还是AI的理解能力问题。”

人工智能现在有两种基本方法，一种是用符号模型来模拟理性行为，符号模型可以表达信息的内容，所以它是在一个语义的符号空间里头，但是非常不幸，这个离散的符号表示，数学工具很难用，很多数学工具用不上去，所以它发展很慢。在模拟感性行为的时候，常用的是特征空间的向量，向量就是数，可以把所有的数学工具都用上，优化的工具、概率统计的工具全部用上。

所以数据驱动方法这几年发展非常快，再难的问题，下围棋非常难吧，计算机也可以「算」出来。但是它有一个非常大的缺陷，它是在特征空间里，缺乏语义。用数据去训练一个模型，也就是所谓「黑箱学习法」，如果数据质量不高，很难学出有用的东西。什么叫概率统计？重复多了就是真理。如果数据质量差，充满了「谎言」。谎言重复多了，就变成真理了。

现在想出的解决办法是这样的，就是把这两个空间投射到一个空间去，这个空间叫做语义的向量空间。也就是说把符号变成向量，同时把特征空间的向量变成语义空间的向量。怎么做？

第一是通过Embedding（嵌入）把符号变成向量，尽量保持语义不变，可惜现在的方法都会引起语义的丢失，只能在投射的过程中让语义丢失得少。

第二方面做的工作比较少，就是Raising（提升），把特征空间提升到语义空间去，这主要靠学科交叉，靠跟神经科学的结合。

只有这些问题解决以后，才能够建立一个统一的理论，因为过去的感知和认知是不同的处理方法，大家说不到一块，如果能够投射到同一空间去，就可以建立一个统一的理论框架，这是我们的目标。

“在语义空间处理就可以解决理解问题，但是这项工作是非常艰巨的。”

五、周穆王与偃师

“周穆王西巡狩，路遇匠人名偃师。翌日偃师谒见王，偕来一个假人。「趋步俯仰，信人也」。「领其颅，则歌合律；捧其手，则舞应节。千变万化，惟意所适。王以为实人也，与盛姫内御并观之，技将终，倡者瞬其目而招王之左右侍妾。王大怒，要杀这个偃师。偃师大慑，立剖其倡者以示王，皆傅会革、木、胶、漆、白、黑、丹、青之所为。穆王始悦，诏贰车载之以归。”

——《列子汤问》

这段话描述了3000 年前古人对机器人的想象，看看现在的人工智能做得怎么样呢？索菲亚是现在能够达到的水平，可是她不会唱歌、不会跳舞，只会说英文，周王也听不懂，肯定没有好印象。

现在假设索菲亚「瞬其目而招王之左右侍妾」，向周王的姨太太们送去秋波，王会如何呢？我认为没反应，因为索菲亚是女的，他用不着吃醋。但是假设索菲亚「瞬其目而招王」，向大王送去秋波，王会大悦，立即神魂颠倒，坠入爱河？我认为不会，因为索菲亚根本不像人，它最近才刚刚安上手脚，走路都不利索，怎么行呢？

所以我的结论是，「索菲亚通不过穆王的测试，当然它更通不过图灵测试」。

最后，用一段话勉励大家。

“当前人工智能技术的发展正在起点，正在路上，也将永远在路上，对于此每个人都要做好充分的思想准备，而这就是人工智能的魅力所在。大家为什么这么重视人工智能？就是因为它永远保持着在路上的发展状态，永远吸引我们去解决不断涌现的新问题。这些问题一旦解决，人类的社会进步和生活方式就将发生本质上的改变，这就是吸引我们持续探索人工智能潜力的重要原因。”

热门工具换一换