e-works数字化企业网  »  文章频道  »  基础信息化  »  IT综合

清华大学教授马少平:人工智能能做什么?

2017/8/10    来源:明略数据    作者:佚名      
关键字:人工智能  机器学习  
其实早在八十年代,国外就有一本书讨论了计算机能做什么,不能做什么。今天和大家谈一下如今的人工智能到底能够做到哪些?

    这张画,显然和真实的陈佩斯还是差了很多的。这个方面也有很多人在研究,但是目前的水平还不尽如意。
 
    所以为什么有的方面人工智能的水平能够轻松超过人类,但是有一些人类看来很简单的事情,机器却难以完成呢?我们来分析一下。像刚刚讲过的语音识别这些技术,我认为它之所以在人工智能领域里面能做,是因为“说得清”。这个说得清并不是指是别的材料说话很清楚,或者是通过什么数学公式能给它描述得清。这个“说得清”的意思是能够明确地定义。这里所说的定义,并不一定指形式化的定义,可以是举例、可以是假设等。比如说我们做猫狗等动物的识别,可以给出大量的动物照片,说这些是猫,这些是狗。可以很明确的用数据给出动物的“定义”。但是让机器理解幽默就很难了,我们很难去说清楚为什么这句话是幽默,幽默点在哪里。
 
人工智能
 
    结论:机器能做“说得清”的事情,不能做“说不清”的事情。
 
    人工智能就是通过“定义”+算法,来求解问题。
 
    这里面对于人工智能领域提炼出来一个原则就是,能说清楚的,能做;说不清楚的,至少现在还做不好。但是技术是在发展的。人工智能的发展就是由“说不清”变得“说得清”,也就涉及到了描述的问题和相应的算法求解的发展。比如说围棋,过去没找到方法,“说不清”,但是谷歌突然间有了这种方法,把围棋说得清了,计算机围棋问题也就解决了。也就是说能“定义”的就能求解。这个定义不是说简单的一个文字,一个形式化的东西。现在的人工智能就是一个“定义”再加上算法来求解问题。那么这些就是目前我们人工智能能够做的。
 
人工智能
 
    首先是能够定义,当然这个定义一定是以计算机能够理解的方式,并且有可以求解的算法。可以是形式化的定义比如说是什么定理,或特征定义,也可以是数据定义或者假设定义。比如这个东西很复杂,要限定条件,在假设下去求解。如何下定义,这是一件和复杂的事情。
 
    三、当前行业中人工智能的应用
 
    1.“猫”脸识别
 
    我们结合具体的例子来看,比如我们做识别猫的应用,那么什么是猫?我们查了一下搜狗百科:"头圆、颜面部短,前肢五指,后肢四趾,趾端具锐利而弯曲的爪,爪能伸缩。夜行性。以伏击的方式猎捕其他动物,大多能攀缘上树。",这个东西我们人能看懂,但是,我们自己识别猫的时候肯定不会按照这个去做。可能我们看到一个稀有的品种,或者是研究猫的专家会去研究这个定义。但是我们让计算机去做,这是不行的,按照这个定义来,肯定识别不出猫。那我们现在怎么定义?给些图片就行了,这就是现在大家做的。我给一大堆图片,告诉系统类似于这个的都是猫,类似于这些的肯定不是猫。这就是我们下的一个定义。加上机器学习算法,可能就能识别猫了。
 
人工智能
 
    2. 专家系统
 
    比如说专家系统中,实际中应用专家系统并不多,这里面有各种各样的原因,比方说、诊断血液病系统实际上就涉及到一个法律上的问题,一旦出了医疗事故,责任如何划分。还有我们国内有人总结了中医治肝病专家的经验,开发了一套中医的专家系统,但是这个也是有问题的,比如说中医讲号脉,但是当时号脉没有这样的机器。就必须把脉相手动的输入到系统中。普通人又不会号脉,还得找个号脉好的中医,人家号脉好的中医又用不到这样的系统。由于种种原因,这个系统就失败了。
 
    还有比如世界上第一个成功的商用专家系统R1。82年开始在DEC公司使用,是用来代替向厂家订货的工作的。当时据说可以节省4000万美元一年,它通过几千条的规则,覆盖了所有可能出现的情况。
 
人工智能
 
    3.IBM的深蓝系统
 
    再有一个是IBM的深蓝系统,1997年,在国际象棋比赛当中战胜了国际象棋大师卡斯帕罗夫引起了世界的轰动。其实深蓝系统的主要算法叫做“alpha-beta剪枝算法”,这个算法很早被提出来了,但是直到深蓝系统才获得了很大的成功。这个算法依赖于局面的评估,在当前的局面下是对我有利还是对对方有利。IBM聘请了很多的象棋大师来为他总结经验,用于对局的局面评估。运用这个算法一方面能剪掉不必要的分支,提高系统的效率,另一方面,它利用知识把局面的评估定义的非常清楚,到底什么样的局面才是对我方有利的。
 
    那为什么这种方法在20年前就达到了让计算机国际象棋达到了世界大师的水平?就是因为无论是中国象棋、国际象棋都有这样的特点,它相对来说容易说得清楚。比方说,残局阶段,比对方多个子就可以认为赢是没问题的,或者说马的位置可能就决定了谁胜负,然后再加上它很强的这个搜索能力,搜索深度可以达到十几步。
 
    由于象棋这种易于“说清”的特殊性,在二十多年前计算机就打败了人类的顶尖选手,国内也是,十几年前计算机也打败了国内的顶尖高手。但是看到深蓝在很多年就获得了成功之后,很多人对象棋产生了误解,认为象棋的可能情况不多,通过暴力穷举就能解决。但其实不是,深蓝的成功很大一部分也在于“Alpha-Beta剪枝”算法的应用。
 
    95年主持IBM深蓝项目的工程师到清华做过讲座。当时我就问过他剪枝算法相比暴力穷举的效率到底提高了多少。他们做过测算,如果单纯是穷举的话,要达到深蓝的水平,每下一步棋需要十七年,用了剪枝算法之后,只需要几分钟。所以说除了“说清楚”外,算法也是很重要的。
 
    4.AlphaGo
 
    那为什么AlphaGo要到20年后才成功了呢?
 
    其实即便是20年后计算机围棋就取得了成功,也是出乎很多人的意料,很多人没有想到2016年人工智能就可以达到这样的水平了。为什么Alpha-Beta剪枝算法用在围棋上不行呢?是因为“Alpha-Beta剪枝”算法严重依赖于局面的评估。原有的局面评估方式是建立在总结专家经验的基础上的。偏偏围棋是很靠感觉的,几个不同的围棋棋手之间往往很难有一致的看法。在几年前中、日、韩曾经举办过围棋组团对抗赛这种友谊比赛,每个队伍选出三名棋手组成团队一起下棋。结果韩国队配合最好。据说他们的队伍里一个人只负责摆棋,一个人只负责买饭准备饮料,只有一个人在下棋。而中国、日本队那边往往还没怎么下呢自己就吵起来了。所以说围棋是很难总结专家经验的,这也就是应用旧的“Alpha-Beta”剪枝算法的计算机围棋,一直处于一种水平不高的状态。
 
    计算机围棋的第一个里程碑在于蒙特卡洛树搜索的引入。2006年法国的一个团队首先把蒙特卡洛树搜素的方法引入到了计算机围棋中,这种方法也是为了解决局面评估的问题。
 
    蒙特卡洛模拟本质上是一种随机模拟的办法。是什么意思呢?就是说该计算机下了,它就随机下,随便找一个点下,一直随便下直到能判断出一方胜利为止。然后再这个基础上反复模拟十万次、一百万次然后看哪个点的胜率最高。哪个点胜率最高,那么计算机下次就下到哪个位置。后来改进的蒙特卡洛树,每次模拟的结果可以重复利用,这就提高了搜索的效率。那么就是靠每一个可下棋的位置的胜率来解决局面评估的问题。
 
    同时在蒙特卡洛树搜索中,采用了一种叫做“信心上限”的决策方法,也就是“多臂老虎机”决策问题。每个老虎机有一定的概率赢钱,多个老虎机,不同的老虎机赢钱的概率不一样。所以我可以站在旁边先看别人玩,先找到赢钱概率最大的决策方法。在模拟选择分支的时候,就把每一条路径看做一个老虎机。这之后选择最优路径然后继续随机模拟。模拟一轮后可能有胜有负,看胜率多少,然后把胜率最高的步骤传回。
 
    应用了这种方式,计算机围棋可以说是从原来基本不会下棋的状态进到了业余五、六段的水平。谷歌的AlphaGo是怎么解决接下来的问题的呢?单纯是原来蒙特卡洛树的随机模拟是效率很低的。所以谷歌就把深度学习的技术引入进来用于解决搜索量大的问题。在AlphaGo中,采用策略网络减少了模拟的宽度,采用估值网络减少了模拟的深度,在整个模拟阶段不一定从头模拟到尾,这样的话可以提高模拟的效率。实际上围棋就不是靠知识了,是完全靠数据去定义了,通过人类的16万棋谱和AlphaGo自己和自己下的三千多万盘棋,再加上深度学习,就定义了下得好不好这件事。并且在算法中结合了蒙特卡洛树、深度学习等技术,把算法本身的效率提高。
 
    5. 汉字识别
 
    再举一个我自己做的汉字识别的例子,20多年前,九十年代的时候,当时我们做的汉字识别属于脱机汉字识别,也就是把汉字写在纸上然后扫描出来识别。联机汉字识别,比如直接在手机上写字识别相对比较简单,因为可以记录笔画顺序。但是脱机的识别就比较难了。当时我们需要把《四库全书》做成成电子版。
 
清华大学教授马少平:人工智能能做什么?
 
    这个《四库全书》是当年三千多人一起抄写了十年才完成的。现存的完整版分别保存在国图和台北。但是要查询《四库全书》的内容就非常难了,当时台湾出版过影印版,整体缩小四分之一,最后一套书的重量有两吨半。因此很多人想出版成电子版。90年代的时候很多公司抢着想做这件事情。甚至还有公司在人民大会堂抢先开了新闻发布会,当然他们最后也没做成。这些人都想找人采用人工录入的方式,但是都没有成功。
 
清华大学教授马少平:人工智能能做什么?
 
    后来我们采用了一种“滚雪球”的算法让机器学习前面人工录入的内容,然后慢慢识别后续的文字。在识别的技术上我们用了模糊文字方向线素特征。这个描述的方法是把每个汉字归一化之后,然后变成网络,每一个网格里面统计字的边缘的像素,抽取不同方向的像素特征。一个汉字就是256个特征。
 
清华大学教授马少平:人工智能能做什么?
 
    我们当时的正确率能够达到95%,后来再通过人工的一些方法,把错误率下降到了万分之一的水平。这里我们等于做的也是一个对于汉字的描述。我们在做这些项目的时候,首要就是要想办法把问题说清楚、给出它的定义。
 

责任编辑:李欢
本文为授权转载文章,任何人未经原授权方同意,不得复制、转载、摘编等任何方式进行使用,e-works不承担由此而产生的任何法律责任! 如有异议请及时告之,以便进行及时处理。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。
e-works
官方微信
掌上
信息化
编辑推荐
新闻推荐
博客推荐
视频推荐