这一次人工智能复兴的最大特点是,AI在语音识别、机器视觉、数据挖掘等多个领域走进了业界的真实应用场景,与商业模式紧密结合,开始在产业界发挥出真正的价值。
<h2>
第三次AI热潮:有何不同?</h2>
2016年3月,似乎人人都在谈人工智能。
Alpha Go与李世石的一盘棋将普通人一下子带入科技最前沿。围棋人机大战刚刚尘埃落定,“人类是不是要被机器毁灭了”之类的话题就超出了科幻迷的圈子,在普通人中流行开来。每天,我都能在各种场合听见人们谈论人工智能,哪怕是在街头的咖啡馆里,也能听到“深度学习”这样的专业字眼儿;大大小小的人工智能“论坛”或“年会”如雨后春笋般在北京、上海、广州、深圳、杭州等地涌现出来,学术界的人工智能大师们在各种会议、商业活动和科普活动中奔波忙碌,马不停蹄;一边是专业的科研机构、高科技公司在谈论人工智能,另一边,银行、保险、能源、家电等传统行业厂商也都忙不迭地把“AI”或“AI+”的标签贴在自己身上;创投领域就更是热火朝天,包括创新工场在内,每家高科技投资机构都盯紧了人工智能领域的初创公司——这种火热场面,和整个投资圈在2016年遇冷的大背景迥然不同。
可大家千万不要忘了,这并不是人机对弈第一次激起公众的热情。1997年IBM的深蓝战胜卡斯帕罗夫的那一天,全世界科技爱好者奔走相告的场景丝毫不比今天人们对Alpha Go的追捧逊色多少。再往前看,1962年,IBM的阿瑟·萨缪尔开发的西洋跳棋程序就战胜过一位盲人跳棋高手,那时,报纸也在追捧人工智能,公众也一样对智能机器的未来充满了好奇。
从20世纪60年代到90年代再到今天,从西洋跳棋到国际象棋再到围棋,三盘棋,三次人工智能在公众中引发的热潮——为什么处在风口浪尖的偏偏都是人机对弈?为什么会下棋的计算机程序如此风光?
<img src="/uploads/allimg/200412/1-2004120Q20E11.jpg" />
图17 三个时代、三盘人机对弈
纵观人工智能发展史,人机对弈只是人工智能在公众心目中的地位起起落落的一个缩影。对于人工智能的技术研发者而言,选择人机对弈作为算法的突破口,这一方面是因为棋类游戏代表着一大类典型的、有清晰定义和规则、容易评估效果的智能问题;另一方面也是因为具备一定复杂性的棋类游戏通常都会被公众视为人类智慧的代表,一旦突破了人机对弈算法,也就意味着突破了公众对人工智能这项新技术的接受门槛。
的确,每次人机大战以及计算机胜出的结果,都在公众视野中激起万千波澜。可反过来想一想,人类对计算机在棋类项目上胜出的心理承受力又是何等脆弱和可笑。跳棋程序甫一成熟,公众惊呼“智能机器威胁论”,可没过几年,习惯了计算机会下简单棋类的公众又转而挑衅地说:“下个跳棋有什么了不起,有本事去下复杂无比的国际象棋试试?”IBM的深蓝刚刚战胜卡斯帕罗夫的时候,全世界关心科技发展的公众都在为人类的未来命运担忧,可没过几年,国际象棋和中国象棋程序就变成了再普通不过的计算机应用,在大多数人心目中,“下个象棋算什么智能?有本事去下奥妙无穷的围棋试试?”
网上流传着一幅有关“人工智能发展成熟度曲线”的漫画,形象地展示出人们在此前两次人工智能热潮中,从被人工智能在某些领域的惊艳表现震撼,到逐渐认识到当时的人工智能还有各种局限,以至于产生巨大心理落差的有趣过程。
<img src="/uploads/allimg/200412/1-2004120Q206116.jpg" />
图18 网上流传的漫画:人工智能发展成熟度曲线
与其说这是人类自身的心理落差,不如说这是计算机是否具有智能的判定标准在不断被拔高。从会下跳棋就算智能,到会下象棋才算智能,再到会下围棋才算智能……到底有没有客观的评价尺度?到底要给计算机设定怎样的门槛,才能正式发给它一张“人类智慧”的鉴定证书?今天我们管Alpha Go叫人工智能了,3年之后呢?5年之后呢?
Alpha Go之前,人们至少喊过两次“人类要被机器毁灭了!”20世纪60年代前后算一次,20世纪80年代到90年代前后也算一次。前两次人工智能热潮,每一次都释放过人类关于未来的瑰丽想象力,每一次都让许多人热血沸腾。但很不幸,两次热潮在分别经历了十数年的喧嚣后,无一例外地迅速跌入低谷,并在漫长的寒冬中蛰伏起来。
1998年,我来到北京创立微软亚洲研究院的时候,正值当时人工智能的热潮开始消退,人们对热潮中随处可见的盲目情绪心有余悸,很多人甚至不愿再用“人工智能”这个词来指代相关的研发领域。在学术圈子里,一度有很多人觉得,凡是叫“人工智能”的,都是那些被过分夸大,其实并不管用的技术。结果,我们为微软亚洲研究院设定科研方向的时候,就经常主动回避“人工智能”这个字眼儿,而是选用“机器视觉”“自然语言理解”“语音识别”“知识挖掘”之类侧重具体应用领域的术语。
仅仅因为人工智能的表现与普通人的期望存在差距,我们这些研究人工智能的人就羞于提及“人工智能”,这真是一件尴尬的事儿。
那么,今天这次人工智能热潮会如何发展呢?第三次人工智能热潮有何本质上的不同?几年后的我们是否还会像前两次那样,不但忘掉了曾经的兴奋,还愤愤地说人工智能都是骗子?学术界、投资界、商业界乃至普通大众还会像此前两次那样在热闹了一阵子之后就归于沉寂,甚至跌入冰点吗?
<h3>
用高德纳技术成熟度曲线看AI发展史</h3>
和前面那张搞笑的“人工智能发展成熟度曲线”不同,学术界、产业界和投资界在谈到技术高潮与低谷时,经常会引用高德纳咨询公司(Gartner)推荐的技术成熟度曲线。
这条曲线显示出,几乎每一项新兴且成功的技术,在真正成熟之前,都要经历先扬后抑的过程,并在波折起伏中通过积累和迭代,最终走向真正的繁荣、稳定和有序发展。
<img src="/uploads/allimg/200412/1-2004120Q20B48.jpg" />
图19 高德纳咨询公司(Gartner)技术成熟度曲线(CC BY-SA 3.0,Wikipedia)29
如图19中的曲线所示,一种新科技的研发过程通常是这样的:初创公司接受第一轮风投,开发出第一代产品,虽然不成熟,但足以吸引一批早期接受者——粉丝。在早期阶段,产品的优点被粉丝放大,大众媒体跟风炒作,将该技术推向一个充满泡沫的膨胀期。随着盲目的追捧者激增,跟风研发、生产的初创公司越来越多,产品的不足被无限放大,负面报道开始出现,供过于求的市场竞争中,大批跟风入局的初创公司不是被兼并,就是走向倒闭,只有少数拥有核心竞争力的坚持了过来。跌入低谷后,第二轮、第三轮风投资金注入大浪淘沙后仅存的中坚企业,新一代技术和产品也随之问世,整个技术曲线步入稳步攀升的平台期和成熟期,潜在用户的接受程度也从5%以下逐渐提升到20%到30%,初创企业和风投资本开始迎来高额回报。
这条曲线概括了绝大多数高新技术的发展历程。更重要的是,每年高德纳公司都会根据当年度所有流行技术的发展、成熟状况,制作出一张当年各流行技术在高德纳曲线上的发展位置图示,标示出每种前沿技术是处在萌芽期、泡沫期、低谷期还是成熟期,以及每种未达成熟期的技术还需要几年才会真正成熟起来。技术人员、投资者经常根据高德纳曲线来判断时代潮流,选择投资方向。
将高德纳技术成熟度曲线对应到人工智能波折起伏的发展历程中,其实不难看到,人工智能此前两次表现出的热潮,更多应该被理解为一项新兴技术在萌芽期的躁动以及在泡沫期的过分膨胀。
20世纪50年代到60年代,伴随着通用电子计算机的诞生,人工智能悄然在大学实验室里崭露头角。以艾伦·图灵(Alan Turing)提出图灵测试为标志,数学证明系统、知识推理系统、专家系统等里程碑式的技术和应用一下子在研究者中掀起了第一拨人工智能热潮。但那个年代,无论是计算机的运算速度还是相关的程序设计与算法理论,都远不足以支撑人工智能的发展需要。例如,计算机科学和人工智能的先驱艾伦·图灵就曾在1951年发表过一份写在纸上的象棋程序30,可惜当年的计算机难以实现这样复杂的运算。这就像探险家发现新大陆一样,第一次踏足新大陆和真正让新大陆蓬勃发展起来是根本不同的两件事。于是,从20世纪60年代末开始,无论是专业研究者还是普通公众,大家对人工智能的热情迅速消退。
20世纪80年代到90年代,也就是我在卡内基-梅隆大学发明非特定人连续语音识别技术并将其用于苹果计算机系统的时代——那的确是人工智能研究者和产品开发者的一个黄金时代。传统的基于符号主义学派的技术被我和其他同时代研究者抛弃在一边,基于统计模型的技术悄然兴起,并在语音识别、机器翻译等领域取得了不俗的进展,人工神经网络也在模式识别等应用领域开始有所建树,再加上1997年深蓝计算机战胜人类棋王卡斯帕罗夫,普通人的积极性一度高涨起来。但是,那个时代的技术进步还不够好,不足以超过人类对智能机器的心理预期。拿语音识别来说,统计模型虽然让语音识别技术前进了一大步,但还没有好到可以让普通人接受的程度,测试环境稍稍变化就会造成识别效果大幅下降。那时,我在苹果公司开发的语音识别应用就更多被用于演示和宣传,实用价值十分有限。从整体上看,那一拨人工智能热潮仍然笼罩着浓厚的学术研究和科学实验色彩,虽然激发了大众的热情,但更像是跌入谷底前的泡沫期,远没有达到与商业模式、大众需求接轨并稳步发展的地步。
2010年前后,准确地说,是从2006年开始,随着深度学习技术的成熟,加上计算机运算速度的大幅增长,当然,还有互联网时代积累起来的海量数据财富,人工智能开始了一段与以往大为不同的复兴之路。
例如,2012年到2015年,在代表计算机智能图像识别最前沿发展水平的Image Net竞赛(ILSVRC)中,参赛的人工智能算法在识别准确率上突飞猛进。2014年,在识别图片中的人、动物、车辆或其他常见对象时,基于深度学习的计算机程序超过了普通人类的肉眼识别准确率31。
<img src="/uploads/allimg/200412/1-2004120Q20CX.jpg" />
图20 Image Net图像分类比赛历年来识别错误率的变化趋势
人们在Image Net竞赛(ILSVRC)中取得的非凡成就是人工智能发展史上一个了不起的里程碑,也是当今这一拨人工智能热潮由萌芽到兴起的关键节点。随着机器视觉领域的突破,深度学习迅速开始在语音识别、数据挖掘、自然语言处理等不同领域攻城略地,甚至开始将以前被人们视为科幻的自动驾驶技术带入现实。此外,基于深度学习的科研成果还被推向了各个主流商业应用领域,如银行、保险、交通运输、医疗、教育、市场营销等,第一次实现了人工智能技术与产业链条的有机结合。
<h3>
今天的人工智能是“有用”的人工智能</h3>
我觉得,和前两次AI热潮相比,这一次人工智能复兴的最大特点,就是AI在多个相关领域表现出可以被普通人认可的性能或效率,并因此被成熟的商业模式接受,开始在产业界发挥出真正的价值。
心理学上说,人们接受一件新事物,就像人们感受一种外界刺激一样,是有一个心理阈值的。外界刺激(比如声、光、电)的强度太小的话,人们根本不会有任何感觉;只有外界刺激的强度超过了一个人能够感知的最小刺激量,人们才有“听到了声音”“看见了东西”之类的明确感受。这个能引起人们感知反应的最小刺激量,心理学上叫绝对阈值(absolute threshold)32。
人工智能技术的发展正是如此。还是拿图像识别来说,在人工智能发展早期,如果一个计算机程序宣称可以识别出图片中的人脸,但它的识别准确率只有五成左右,那普通人只会将这个程序看作一个玩具,绝不会认为它拥有智慧。随着技术进步,当人脸识别算法的识别准确率提高到80%甚至接近90%的时候,研究者们当然知道,取得这样的进步十分不易,但这一结果其实还是很难被普通人接受,因为每五个人脸就认错一个,这明显无法在实际生活中使用——人们也许会说这个程序挺聪明,但绝对不会认为这个程序已经聪明到可以替代人类的眼睛。只有计算机在人脸识别上的准确率非常接近甚至超过普通人的水平,安防系统才会用计算机来取代人类保安完成身份甄别工作。也就是说,对于人脸识别这个应用,接近或超过普通人的水平才是我们关心的“绝对阈值”。
所以,我们说“人工智能来了”,其实是说,人工智能或深度学习真的可以解决实际问题了。在机器视觉、语音识别、数据挖掘、自动驾驶等应用场景,人工智能接连突破了人们可以接受的心理阈值,并第一次在产业层面“落地”,发挥并创造出真正的价值。
人工智能之所以有今天的成就,深度学习技术居功至伟。谷歌最杰出的工程师杰夫·迪恩说:“我认为在过去5年,最重大的突破应该是对于深度学习的使用。这项技术目前已经成功地被应用到许许多多的场景中,从语音识别到图像识别,再到语言理解。而且有意思的是,目前我们还没有看到有什么是深度学习做不了的。希望在未来我们能看到更多更有影响力的技术。”33
所以,关于第三次人工智能热潮,我的看法是:
·前两次人工智能热潮是学术研究主导的,而这次人工智能热潮是现实商业需求主导的。
·前两次人工智能热潮多是市场宣传层面的,而这次人工智能热潮是商业模式层面的。
·前两次人工智能热潮多是学术界在劝说、游说政府和投资人投钱,而这次人工智能热潮多是投资人主动向热点领域的学术项目和创业项目投钱。
·前两次人工智能热潮更多是提出问题,而这次人工智能热潮更多是解决问题。
到底本次人工智能热潮是不是处于技术成熟度曲线的成熟上升期,到底能不能保持长期持续增长的势头,是不是会像此前的人工智能热潮那样,有跌入低谷的风险?我想,经过上面的分析,大家应该会有自己的判断。
<h2>
图灵测试与第一次AI热潮</h2>
2016年是计算机科学领域的最高奖项——图灵奖设立50周年。1966年,美国计算机协会(ACM)以开创计算机科学和人工智能基本理论的科学巨匠——艾伦·图灵的名字设立了这项“计算机界的诺贝尔奖”。
<img src="/uploads/allimg/200412/1-2004120Q20AH.jpg" />
图21 布莱切利园的图灵雕像(CC BY-SA 3.0,Wikipedia)
艾伦·图灵的人生本身就是一个传奇。他利用自己卓越的数学、密码学和计算理论知识,在第二次世界大战期间,帮助英国军方成功破译了德军使用的著名密码系统——恩尼格玛(Enigma)密码机。他早在20世纪30年代就提出了指导所有现代计算机(那个时候,通用电子计算机还没有诞生)的计算原理设计的图灵机理论。他还是个擅长马拉松的运动健将,却因为性取向问题受到英国政府的迫害,最终服毒身亡。有关图灵的传奇故事,2014年的电影《模仿游戏》很值得推荐,该片曾于2015年7月在中国大陆公映。
艾伦·图灵是人工智能的开拓者,他所提出的图灵测试,直到今天仍然是我们判定一部机器是否具有人类智慧的重要手段。那么,到底什么是图灵测试呢?
<h3>
AI小百科 图灵测试</h3>
1945年到1948年,图灵在英国国家物理实验室负责自动计算引擎(ACE)的研究。1949年,图灵出任曼彻斯特大学计算机实验室副主任,负责英国最早的可编程计算机之一——曼彻斯特一号(Manchester Mark 1)的软件工作。
这是通用电子计算机刚刚诞生的时代。电子计算机的用户,无论是军方、科学家、研究员,还是学生,都将计算机视为一台运算速度特别快的数学计算工具。很少有人去琢磨,计算机是不是可以像人一样思考。图灵却走在了所有研究者的最前沿。
1950年10月,图灵发表了一篇名为《计算机械和智能》(Computing Machinery and Intelligence)的论文,试图探讨到底什么是人工智能。在文章中,图灵提出了一个有趣的实验:
假如有一台宣称自己会“思考”的计算机,人们该如何辨别计算机是否真的会思考呢?一个好方法是让测试者和计算机通过键盘和屏幕进行对话,测试者并不知道与之对话的到底是一台计算机还是一个人。如果测试者分不清幕后的对话者是人还是机器,即,如果计算机能在测试中表现出与人等价,或至少无法区分的智能,那么,我们就说这台计算机通过了测试并具备人工智能。
简单地说,图灵从人们心理认知的角度,为“人工智能”下了一个定义。图灵认为,人们很难直接回答一般性的,有关人工智能的问题,比如“机器会思考吗?”但是,如果把问题换一种形式,也许就变得易于操作和研究了。图灵所提出的新问题是:
在机器试图模仿人类与评判者对话的“模仿游戏”中,有思考能力的电子计算机可以做得和人一样好吗?
图灵所说的“模仿游戏”,后来也被人们称为“图灵测试”。这个定义更接近我们现在说的“强人工智能”或“通用人工智能”。另外,在论文中,图灵还对人工智能的发展给出了非常有益的建议。他认为,与其去研制模拟成人思维的计算机,不如去试着制造更简单的,也许只相当于一个小孩智慧的人工智能系统,然后再让这个系统去不断学习——这种思路正是我们今天用机器学习来解决人工智能问题的核心指导思想。
在20世纪50年代到60年代,人们对人工智能普遍持过分乐观的态度。图灵测试刚提出没几年,人们似乎就看到了计算机通过图灵测试的曙光。
1966年,麻省理工学院(MIT)教授约瑟夫·维森鲍姆(Joseph Weizenbaum)发明了一个可以和人对话的小程序,名叫ELIZA。这个名字来自萧伯纳的戏剧《卖花女》——其中,卖花女的名字就叫伊莱莎·杜立德(Eliza Doolittle)。
第一次使用ELIZA程序的人几乎都被惊呆了。约瑟夫·维森鲍姆将ELIZA设计成一个可以通过谈话帮助病人完成心理恢复的心理治疗师。人们不敢相信自己的眼睛,ELIZA竟真的能够像人一样,与病人一聊就是好几十分钟,而且,有的病人还特别愿意与ELIZA聊天。
今天,我们还可以从网络上找到许多不同的ELIZA的实现版本,比如,在程序员爱用的编辑器Emacs中,有一个名叫医生(Doctor)的现代版本的ELIZA对话程序。图22是病人与这位“精神治疗医生”的一段对话记录。怎么样?还挺像两个真人在聊天吧?
想象一下,20世纪60年代的人第一次看到类似这样的人机对话,会是怎样一种既惊讶又兴奋的神情。但约瑟夫·维森鲍姆公布出来的程序原理和源代码又让当时的人大跌眼镜:ELIZA的程序逻辑非常简单!
ELIZA所做的,几乎就是在一个相当有限的话题库里,用关键字映射的方式,根据病人的问话,找到自己的回答。比如,当用户说“你好”时,ELIZA就说:“我很好。跟我说说你的情况。”此外,ELIZA会用“为什么?”“请详细解释一下”之类引导性的句子,来让整个对话不停地持续下去。同时,ELIZA还有一个非常聪明的技巧,它可以通过人称和句式替换来重复用户的句子。比如,用户说“我感到孤独和难过”时,ELIZA会说“为什么你感到孤独和难过?”这样一来,虽然根本不理解用户到底说了什么,但ELIZA表面上却用这些小技巧“装作”自己可以理解自然语言的样子。
<img src="/uploads/allimg/200412/1-2004120Q20A20.jpg" />
图22 ELIZA对话程序的一个现代实现:Emacs Doctor
ELIZA是那种第一眼会让人误以为神通广大,仔细看又让人觉得不过尔尔的小程序。当年虽有人宣称ELIZA可以通过图灵测试,但更多人只是非常客观地将ELIZA看成是人们第一次实现聊天机器人(Chatbot)的尝试。追本溯源,ELIZA是现在流行的微软小冰、苹果Siri、谷歌Allo乃至亚马逊Alexa的真正鼻祖!
针对图灵测试,人工智能领域还专门设立了一个每年一度的罗布纳奖(Loebner Prize),专门颁发给在图灵测试中表现最优秀的计算机程序。所有聊天机器人程序都可以参加罗布纳奖的评测,以判定是否有程序通过图灵测试。罗布纳奖的竞赛规则和评测方式历经许多次变化与调整。1995年以前以限定话题领域的测试为主,1995年起,罗布纳奖不再限定话题领域。对话时长则从最初的5分钟逐渐增加到2010年之后的25分钟。
评测时,人类评判员坐在电脑前,同时与一个计算机程序和一个真人通过键盘和屏幕对话。对话结束后,评判员根据对话内容,判定与自己对话的两位中,哪一位是电脑,哪一位是真人。如果判定错误,就表明计算机程序在这一次对话中“愚弄”了人类。如果计算机程序愚弄人类的次数超过30%(图灵本人建议的比例数字),就可以认为,该计算机程序通过了图灵测试。罗布纳奖成立至今,尚未有任何程序超过30%的关口。2008年时,一个名叫Elbot的程序骗过了12名人类评测员中的3位,这已经很接近30%的界限 了34。
非常有趣的是,2014年,为了纪念图灵去世60周年,雷丁大学在伦敦皇家学会举办了另一场图灵测试。测试中,一个名叫尤金·古斯曼(Eugene Goostman)的聊天机器人程序取得了33%的成功率。这个聊天机器人程序是由一个名叫普林斯顿人工智能(Princeton AI,虽然叫普林斯顿,但和普林斯顿大学没有任何关系)的小团队设计实现的,它成功地在33%的评判轮次中,让评判员误以为尤金·古斯曼是一个真实的、13岁左右的小孩子。雷丁大学随即宣称,尤金·古斯曼第一次通过了图灵测试!
尤金·古斯曼真的通过了图灵测试吗?消息刚一传出,质疑声就随之而来。根据公布的尤金·古斯曼的聊天记录,罗布纳奖的创立者休·罗布纳认为,雷丁大学的测试时长只有5分钟,远没有达到罗布纳奖25分钟的标准。用5分钟的聊天记录来判定一个程序是否具有智能,这太简单和草率了35。许多学者在亲自与尤金·古斯曼进行过网上聊天后,都觉得这个聊天程序离真正的智能还远得很。至少到目前为止,尤金·古斯曼还没有得到学界的一致认可。
<h3>
我挑战图灵测试的故事</h3>
说起图灵测试,我总会想起我在哥伦比亚大学读书时的一段趣事。
在哥伦比亚大学,我读的不是计算机系,却对计算机相关的课程最感兴趣。当时,教我们自然语言处理课程的老师是迈克尔·莱博维奇(Michael Lebowitz)。他为我们讲述了诺姆·乔姆斯基(Noam Chomsky)的语言学基本理论,比如基本的词法、句法关系,以及人是如何通过语法结构理解自然语言的。
学到了这些语言学方面的基本知识,年轻的我就大胆提出:“我能不能挑战一下图灵测试呢?”其实,我当时提出的想法很简单,就是做一个聊天机器人,而且,是一个只关注自然语言处理这个领域,且在说话风格上模仿我们的老师迈克尔·莱博维奇的小程序。我当时和另一位非常有才华的华人同学胡林肯(Lincoln Hu)一起,完成了程序的设计和开发。
我们做的那个程序,名字就叫迈克尔·莱博维奇。学生可以把这个程序当作老师,与“他”聊任何与自然语言处理课程相关的话题。比如,我们可以问这个程序说:“你能告诉我,语言学是什么吗?”这个程序就会装出老师迈克尔·莱博维奇的口吻说:“语言学就是关于人类语言的科学研究,包含句法、词法、语音学等研究方向。”更有趣的是,这个程序甚至会讲许多老师迈克尔·莱博维奇当年常讲的课堂笑话。
我们的程序还很幼稚,有些时候表现得比较呆笨,根本不像一个聪明的人类对话者。但这个小程序还是让老师迈克尔·莱博维奇笑逐颜开,无论是程序本身的幽默感,还是代码中的技术含量,都超过了老师的期望。老师给了我们A+的高分。
从技术上说,今天那些流行的聊天机器人程序和我们那个时代做的小程序相比,已经有了很大的进步。它们都在模仿人类语言风格之外,引入了更大的知识平台作为后盾。例如,聊天程序基于搜索引擎索引到的互联网网页建立知识库,从海量的页面信息中搜集可能的常见问题、常见回答的组合,这已经成为一种非常成熟的技术。当我们与这些程序聊天时,实际上既是一次人机间的对话,也是一次对机器背后庞大知识库的搜索操作。
另一方面,那些以参加图灵测试比赛为目标的聊天机器人程序,往往在对话策略方面有着非常针对性的设计。比如,不少在罗布纳奖测试中排名靠前的聊天程序,都刻意使用了一种攻击性强的对话风格,它们试图更多地控制聊天时的话语权,不给评判员太多深入追问的空间,并用挑战性的问句或引导性的话语,尽量将聊天控制在自己熟悉的话题领域内。这也是罗布纳奖测试为什么在近年要将聊天的时长从5分钟扩展到25分钟的重要原因——没有足够的时间,评判员根本来不及根据自己的思路,与对方深入交流。
无论如何,图灵测试以及为了通过图灵测试而开展的技术研发,都在过去的几十年时间里,推动了人工智能特别是自然语言处理技术的飞速发展。我们憧憬着计算机程序真正使人信服地通过图灵测试的那一天,但我们更希望看到自然语言处理技术在文本理解与分类、语音识别、自动客服应答、自然语言控制界面等领域取得更多商业上的成功。
<h2>
语音识别与第二次AI热潮</h2>
<h3>
生不逢时的我</h3>
20世纪80年代到90年代的第二次AI热潮中,语音识别是当时最具代表性的几项突破性进展之一,而我自己恰恰在那个时代站到了人工智能特别是语音识别研究的最前沿。
让计算机听懂人们说的每一句话、每一个字词,这是人工智能这门学科诞生第一天科学家就努力追求的目标。但直到我从事博士研究的那个时代,语音识别才真正取得实质性的进展——很大程度上是因为我和同时代学者对传统符号主义方法的摒弃。
很多人说,我在人工智能的发展史上留下了自己的名字。这的确是事实。但就像人工智能前两次热潮中的许多研究者一样,我提出的语音识别算法虽然在那个时代处于领先地位,但距离人们觉得系统可用的心理阈值还有一定的距离。我博士毕业后,在苹果公司研发的语音识别系统就难以满足当时市场上人们对听写、输入、控制等功能的需要,很难真正变成畅销的产品。
今天回想起来,我真的有些感慨自己生不逢时。如果我晚生30年,在2010年前后读博士并从事人工智能的研究,那我一定会基于这个时代被证明最为神奇、最有效的人工智能算法——深度学习来重新打造语音识别的整个算法架构,就像今天谷歌、微软乃至国内的科大讯飞在语音识别领域所做的那样。如果我生在今天这个时代,我所开发的技术和产品一定会被亿万人使用,并深刻改变人们的生活方式。
科技发展瞬息万变,每个时代都有每个时代的领军人物和代表性的技术方向。从20世纪70年代末到20世纪90年代中,比尔·盖茨和史蒂夫·乔布斯所代表的PC时代的创业者们,缔造出微软、苹果等科技神话。从20世纪90年代末到2015年前后,谷歌、Facebook、腾讯、阿里、百度等科技巨头以及后生可畏的优步、Snapchat、美团、滴滴、小米等新兴独角兽公司,先后在互联网领域和移动互联网领域引领科技大潮。错过了PC时代的创业者,要在2010年前后去创立一家与联想、惠普、戴尔竞争的PC公司,简直就是痴人说梦。错过了互联网时代的企业家,要在今天去打造一个世界级的通用搜索引擎,就更没有任何可行性。
今天的主角是人工智能。移动互联网的浪潮尚未平息,人工智能的创投就已经进入了让创业者无比兴奋的上升期。只有顺应潮流,在对的时间做对的事情,创业才最有可能成功。
正因为如此,当人工智能开始真正在产业发展中成为核心推动力的时候,我才不无遗憾地发现,如果晚生20年,如果在今天这个时代到来前夕才开始做人工智能相关的研究,那么,我也能在一个对的时代站到科研第一线,享受科技风口带给前沿研究者的巨大机遇与挑战。
当然了,这样说有些过于机会主义。而且,今天的人工智能热潮离不开此前数十年中几代研究者的耕耘与铺垫。我当年毅然摒弃符号主义学派的方法,选择使用统计模型破解语音识别难题,将识别准确率提升了一个层次,这与今天的研究者们在统计模型基础上引入深度学习方法,真正将语音识别提升到实用化的高度是一脉相承的。这数十年里,语音识别在技术选型上的波折与起伏,不正是人工智能技术螺旋形上升、发展的一个缩影吗?
<h3>
语音识别的研发故事</h3>
和其他人工智能技术相仿,我亲身参与的语音识别技术也历经了数次更新换代。
早在20世纪70年代,语音识别就曾经有过一些技术突破,小小地“火”过一阵子。有趣的是,今天异常成功的深度学习技术,当年曾在语音识别领域品尝过失败的苦涩。
在卡内基-梅隆读书时,我有个同学叫亚历山大·万贝尔(Alex Waibel),他当时就跟目前在深度学习领域拥有绝对权威地位的杰弗里·辛顿(Geoffrey Hinton)合作,将人工神经网络应用于语音识别。但很遗憾,亚历山大·万贝尔也属于生不逢时的类型,当时基于人工神经网络的深度学习技术受限于计算能力和数据不足这两大痼疾,远远达不到哪怕是可以演示的效果。我当时就很看不上亚历山大·万贝尔他们的研究,觉得在当时条件下不可能有实质性的突破。现在想想,要是我们不是在20世纪80年代,而是在今天从事基于人工神经网络的语音识别研究,那该是一件多么幸福的事!
当年做语音识别,有不少技术流派,也有不少精英参与。有一对夫妻,名叫詹姆斯·贝克(James Baker)和珍妮特·贝克(Jenet Baker),他们开发了名为“龙”(DRAGON)的语音识别技术,并一起创立了龙系统技术公司(DRAGON Systems)。之后这家公司被荷兰公司Lernout&Hauspie收购,然后Lernout&Hauspie又被卖给了著名的Nuance公司(Nuance Communications,当时叫Scan Soft)。Nuance公司是今天欧美事实上的语音技术领导者,Nuance公司的语音识别产品线中至今还保留着“龙”(DRAGON)的品牌。
另外一位著名的语音识别研究者是卡内基-梅隆大学的布鲁斯·劳埃尔(Bruce Lowerre)。他也是师从我的导师——图灵奖得主拉吉·瑞迪教授从事语音识别研究的。20世纪70年代,在拉吉·瑞迪教授的领导下,卡内基-梅隆大学研发出了当时世界上最好的两个语音识别系统,早期的一个叫Hearsay,稍晚的一个叫HARPY。
Hearsay是个很可笑的系统,我们当时管它叫“黑板架构模型”(blackboard architecture model)36。技术上讲,它其实是专家系统的一种。拉吉·瑞迪教授和他的学生们把根据语言学知识总结出来的语音和英文音素、音节的对应关系用知识判定树的方式画在黑板上,每次从系统中得到一个新的发音,就根据黑板上的知识来确定对应的是哪个音素、哪个音节、哪个单词。如果黑板上的知识无法涵盖某个新的发音,就相应地扩展黑板上的知识树。这样的系统严重依赖于人的语言学知识,基本上无法扩展,只能识别很少的一组单词,也无法适应不同人的语音特点。
布鲁斯·劳埃尔觉得Hearsay完全不靠谱,他转而用自己的方式改进专家系统,做出了名为HARPY的语音识别系统。布鲁斯·劳埃尔的思路是把所有能讲的话串成一个知识网络,把每个字打开变成单独的音节、音素,然后根据它们的相互关系,串联在网络里,并对网络进行优化,用动态规划算法快速搜索这个知识网络,找出最优解答。但因为HARPY系统的本质还是专家系统,其可扩展性和可适应性并没有好到哪里去。布鲁斯·劳埃尔的努力也无疾而终。
后来到苹果工作后,我还将布鲁斯·劳埃尔雇到苹果的语音组来工作。他比我大十几岁,是我的师兄,当时似乎已经厌倦了第一线的科研工作,在语音组里工作时非常散漫,没有太多业绩,经多次打分和测评,他被列入了需要被开除、裁撤的人员名单。我当时下了很大的决心,才摆脱了同门情谊的羁绊,将这位师兄裁掉。这个决定让我痛苦,因为它违背了我心底的怜悯和同情。师兄走的那天,我告诉他,将来有任何需要帮助的地方,我都会尽量去帮他。但布鲁斯·劳埃尔显然十分气愤,他后来参加某些会议时,甚至还在自己的名片上印了一行红字——“曾被李开复裁掉”(Fired by Kai-Fu)。
Hearsay和HARPY系统之后,为了将语音识别技术从稚嫩推向成熟,拉吉·瑞迪教授从美国国防部争取到了300万美元的经费,研发非特定语者、大词库、连续性的语音识别系统。瑞迪教授希望机器能听懂任何人的声音,而且至少可以懂得上千个词汇,能识别出人们自然连续说出的每一句话。这三个问题当时都是无解的问题,而瑞迪教授大胆地拿下项目,希望同时解决这三个问题。他在全美招聘了30多位教授、研究员、语音学家、学生、程序员。而他也期望我加入团队,并沿着当时人们普遍认为正确的专家系统的技术路线继续努力,在这30多人的队伍里面发挥重要作用。
但他怎么也没想到,我很早就对专家系统有了质疑。我之前在奥赛罗(黑白棋)人机对弈系统中的工作让我认识到,基于数据的统计建模,比模仿人类思维方式总结知识规则,更容易解决计算机领域的问题。计算机的“思维”方法与人类的思维方法之间,似乎存在着非常微妙的差异,以至于在计算机科学的实践中,越是抛弃人类既有的经验知识,依赖于问题本身的数据特征,越是容易得到更好的结果。
我尝试着脱离专家系统的研究,打算从准备数据着手,建立大型的基于语音数据的语料库,并在大规模语料库的基础上尝试基于统计模型的新方法。说起这段故事,其实还和我的另一个师兄彼得·布朗(Peter Brown)有关。彼得·布朗特别聪明,他跟当年卡内基-梅隆大学毕业的许多博士生一样,进入了那个时代科学家们最向往的几个超级乐园之一——IBM的沃森(T.J.Watson)研究中心。拉吉·瑞迪教授对此非常支持。
在IBM研究中心里,彼得·布朗跟着弗雷德里克·杰里耐克(Frederick Jelinek)领导的小组做语音识别。那个时代的语音识别主流是做专家系统,可IBM里的这一小撮人却悄悄搞起了概率统计模型。其中原因说出来,就完全没有了神秘感——IBM那拨人之所以去搞概率统计,倒不是真的因为他们预见到了未来,而是因为他们一时找不到语言学方面的专家。没想到,弄一大堆训练数据统计来统计去,效果还真比专家系统提升了不少,技术曙光初现。
彼得·布朗跟我透露了IBM正在研究概率统计模型的事情,但出于保密的需要,没有告诉我任何细节。我并不知道概率统计模型是不是真的好用。但基于我在奥赛罗人机对弈系统中积累的经验,我这次选择相信彼得·布朗他们的方向,也决定顺着这个思路走下去。IBM的语音识别小组要解决的是IBM关心的听写问题,目的是要用语音识别来代替打字机,代替字处理软件,他们的应用可以先根据打字者的声音进行适应性训练,要简单不少。而我要解决的是非特定语者连续语音识别问题,预先不能根据特定语者的语音进行训练,技术挑战更大。
可怎样向瑞迪教授提出我要在他计划的30多人团队之外另辟蹊径呢?我一直在犹豫,他已经向国防部立项,经费已经到位,专家系统的方向是势在必行的,我是他一手调教出来的大弟子,如果我这么不配合他的方向,他会怎么处理呢?会试着说服我继续做专家系统?会大发雷霆?还是会好言相劝?
再三思考后,我告诉自己,我必须向他坦承我的看法。我鼓足勇气,向瑞迪教授直接表达我的想法。我对他说:“我希望转投统计学的怀抱,用统计学来解决这个‘不特定语者、大词汇、连续性语音识别’的问题。”
出乎我的意料,瑞迪教授一点儿都没生气。他只是好奇地问:“那统计方法如何解决这三大问题呢?”
对此,我已思考很久。我在瑞迪教授面前,长篇大论地说了10分钟。瑞迪教授耐心听完,用他永远温和的声音告诉我:“开复,你对专家系统和统计的观点,我是不同意的,但是我可以支持你用统计的方法去做,因为我相信科学没有绝对的对错,我们都是平等的。而且,我更相信一个有激情的人是可能找到更好的解决方案的。”
那一刻,我被深深感动了。对一个教授来说,学生要用自己的方法做出一个与他唱反调的研究,教授不但没有动怒,还给予经费上的支持,这在很多地方是不可想象的。
最终的结果大家已经知道了,我硬是顺着这条概率统计的道路走了出来,还走得更远更好,研究出了比IBM发布的听写系统好很多的语音识别技术,用我自己的论文宣告了以专家系统为代表的符号主义学派(Symbolic AI)在语音识别领域的完败。
<h3>
解雇语言学家的故事</h3>
我和同时代的彼得·布朗等研究者一道,将语音识别从符号主义时代推动到了统计时代。这可不是简单的技术换代,这同时也意味着,那些来不及拥抱新技术的研究者在转瞬之间,就会被时代的大潮淘汰。
在微软创办亚洲研究院后,2002年年初,我加入了Windows Vista团队,并组建了一个新部门,叫自然互动服务部。当时,比尔·盖茨总是对语音、语言、智能型助手式用户界面情有独钟,于是,他要求全公司在这方面的团队都加入我的队伍,从事相关研发。
那时候,我发现在一个语言小组里,居然有一个150人的团队都在做着“无用功”。在这150人的语言处理项目团队中,有一半是完全不懂技术的语言学家,而这些语言学家居然在指挥工程师的工作。负责这个团队的高管有一个“瑰丽”的梦想:通过语言学家的介入,逐渐地形成一道“语言彩虹”,一步步解决人机界面问题,让机器越来越多地可以理解人类的语言。
这绝对不行!基于我自己在语音识别领域的研究经验,语言学家所掌握的人类语言学知识与计算机如何理解人类的语音乃至语言差别甚远。微软那些语言学家几乎都在重复我所拒绝使用的类似专家系统的传统解决方案,他们既得不到任何有说服力的学术成果,也没法对实际研发进行任何指导。
我下定决心,要让这个团队中的工程师“解放”出来,专心地做更有前景的项目。当我把这个决定告诉该团队的建立者时,他怎么也不同意我将这个团队解散和重组,于是他把状告到了鲍尔默那里,而鲍尔默又告诉了盖茨。
盖茨找到我说:“开复,我希望你的团队能让用户自然地与机器交流。那为什么你执意取消这个自然语言处理团队呢?”
“因为,这个团队走的方向是错的。”
“但是,大卫也是专家,还拯救过公司。他不认可你的看法。”
“比尔,大卫是操作系统的专家。我才是语音语言的专家。”
“但是,这个项目我们的投入很多,我们特意批准了100多个人,围绕着语言学家来解决人类语言理解的问题。”
“比尔,当你走错方向的时候,投资越大,损失就越多,弥补也越难。”
“你确定这个方向不行吗?”
“比尔,你还记得我加入公司的时候,你曾告诉我,微软的许多技术决定都借鉴了我在其他公司的工作吗?”
“当然!”
“如果我不在微软时都借鉴我的做法,那我加入了微软,请你一定也要相信我。”
盖茨沉默了一下,没有说话。
我看着盖茨的眼睛,对他说:“在公司,很多人为了自己的利益会跟你说很多话。但是,我对你保证,我不会骗你。”
在那一刹那,我感觉我们的心灵有一个难得的碰触。
“好,那就照你说的做。”盖茨说。
盖茨亲自参与这个问题的解决,最后支持了我的决策。然后,我亲自操刀,把这个团队裁减了一半,才腾出了资源来做更多、更好的项目。
时代就是这么无情,在人工智能的上一个时代,符号主义专家特别是语言学家们还风光无限,仿佛技术突破的美好前景都要由他们来描绘。但实践结果表明,我所代表的统计学派真正可以解决问题,可以提高语音识别与自然语言处理的准确率,专家系统等老一代技术就被无情抛弃。老一代研究者如果不能尽快更新知识储备,就只有面临被解雇的命运。
今天,语音识别和更广泛意义上的自然语言处理已经走进了统计方法与深度学习方法相结合,甚至是深度学习方法独立起主导作用的新时代。与我们那个时代相比,今天的语音识别真正满足了用户的应用需求。这也意味着,像我这样“上一代”的研究者就必须抓紧一切时间,转换思维和知识储备,拥抱以深度学习为代表的崭新时代,否则,就有被时代淘汰的风险。
<h3>
深度学习助力语音识别</h3>
我做研究时,没有赶上深度学习技术革命。语音识别在第二次人工智能热潮中虽性能提升明显,却始终无法满足需要。在近年来的第三次人工智能热潮中,语音识别领域发生了天翻地覆的变化。深度学习就像一个秘密武器,蛰伏多年,重出江湖,首先在计算机视觉领域,帮助计算机认识人脸、认识图片和视频中的物体,然后,拔剑四顾,冲入语音识别、机器翻译、数据挖掘、自动驾驶等几乎所有人工智能的技术领域大展身手。