2016年5月7日,发生在佛罗里达州的特斯拉电动汽车致死事故,其中的原因之一就是车主过度信任特斯拉汽车的Autopilot模式(其实这一模式在当时是不折不扣的“辅助驾驶”,而不是“自动驾驶”),对突发情况没有做出及时的人工干预。而谷歌认为,要保证自动驾驶的绝对安全,就一定不能依赖于人的参与,必须让自动驾驶汽车的人工智能技术能够应对所有(至少是极其接近100%的)极端路况,否则,就无法销售尚有风险的汽车产品。
因为对100%自动驾驶的高标准追求,谷歌的自动驾驶汽车研发和商业化之路无法在短期内获得收益。就在谷歌不懈追求最高水准的自动驾驶系统的同时,特斯拉、优步、百度、苹果、英伟达(NVIDIA)等高科技公司纷纷加入自动驾驶研发的阵营,并大多采用从与谷歌不同的角度切入市场,如关注辅助驾驶的特斯拉、关注汽车资源共享的优步、关注自动驾驶计算平台的英伟达等。传统汽车厂商如通用、奔驰、宝马、丰田等也陆续调整自己的技术战略,跟上最新的无人驾驶风潮。初创公司如以色列的Mobileye、Oryx Vision,美国的Nu Tonomy、Zoox、Drive.ai、Nuro.ai,国内的驭势科技(UISEE)、初速度科技(Momenta)等,则瞄准了整个自动驾驶产业链中的特定应用场景(如小区通勤、卡车运输等),特定解决方案(如视觉解决方案、地图解决方案等),或特定功能模块(如激光雷达传感器、视觉模块、决策模块、控制模块等),发挥初创公司灵活、高效的特点。
相比之下,谷歌的自动驾驶团队多少有些“拣尽寒枝不肯栖,寂寞沙洲冷”的脱俗意味。追求最佳的安全和行驶体验,迟迟不进行商业化的开发,这让谷歌自动驾驶团队在许多新闻评论中成了“起个大早,赶个晚集”的揶揄对象96。因为产品商业化迟缓,谷歌自动驾驶团队的许多技术人员都已离开谷歌,成为各大科技企业和初创团队中研发自动驾驶技术的领军人物。创始人塞巴斯蒂安·特龙已将精力放在了教育项目优达学城(Udacity)上;团队骨干安东尼·勒万多斯基(Anthony Levandowski)带着自己熟悉的三名同事创立了Otto继续做自动驾驶,这家公司已被优步收购;创始团队CTO克里斯·厄森(Chris Urmson)2016年8月离职;另一名技术专家朱家俊也离职组建了Nuro.ai。
2016年12月,谷歌宣布,自动驾驶团队正式分离出来,成立了一家名叫Waymo的新公司。这一举措也许意味着谷歌自动驾驶汽车正式走向商业化的开始,也许是谷歌为了应对人才流失和市场竞争的无奈之举。无论如何,我们还是更愿意看到谷歌自动驾驶汽车项目继续引领自动驾驶的科技革命,未来能继续代表自动驾驶技术的最高水平。
<img src="/uploads/allimg/200412/1-2004120Q2092W.jpg"/>
图42 Zee.Aero公司申请的“飞行汽车”专利中的图示97
顺便提一下,除了公路上跑的汽车,包括谷歌创始人拉里·佩奇以及塞巴斯蒂安·特龙本人在内,都在关注甚至投资研发更加科幻级的自动交通工具。据说拉里·佩奇秘密投资了两家神秘的“飞行汽车”初创公司Zee.Aero和Kitty Hawk,而Kitty Hawk正是塞巴斯蒂安·特龙创立的。目前,有关这两家神秘公司的公开资料少之又少,人们只能从一些只言片语,或是已申请专利中一些非常早期的概念图来猜测,这两家公司想做的是像飞机一样在空中自由飞行,又像汽车一样方便乘坐和停放的新一代交通工具。98
<h3>AI小百科 自动驾驶的六个级别</h3>
和“人工智能”一样,“自动驾驶”也是一个有歧义,经常被人用不同方式解读的概念。
例如,有人喜欢用“无人驾驶”来描述相关技术与应用,但“无人”一词带有鲜明的“100%由机器操控”的含义,无法涵盖辅助驾驶等初级功能。事实上,许多汽车厂商都把计算机辅助驾驶称为“自动驾驶”。大家应该知道,装配有碰撞告警、车道保持、定速巡航、自动泊车等自动化功能的汽车好多年前就已经开始在市场上销售了,厂家在做广告宣传时,就将这些辅助告诉人类驾驶员,并将辅助完成特定操作(如泊车)的系统称作“自动驾驶”,但这和谷歌研发的全功能的自动驾驶汽车显然不是一个级别的技术。
从中文语义上来说,“无人驾驶”的语义过于狭窄,而“自动驾驶”的语义过于宽泛。即便在英文文本中,“self-driving car”“driverless car”“robotic car”和“autonomous car”等术语之间,内涵和外延也并非完全一致。
从理想的情况看,人类当然希望尽早看到完全“无人驾驶”的汽车取代现有的所有人类司机,但从自动驾驶技术的发展进程看,未来将存在10年或更长时间的过渡期,各种不同类型、不同层次的自动驾驶技术将呈现共同发展,各自覆盖不同需求、不同路况、不同人群、不同商业模式的情况。因此,用内涵单一的术语不利于自动驾驶技术目前的发展阶 段。
为了更好地区分不同层级的自动驾驶技术,国际汽车工程师学会(SAE International)于2014年发布了自动驾驶的六级分类体系,美国国家公路交通安全管理局(NHTSA)原本有自己的一套分类体系,但在2016年9月转为使用SAE的分类标准。今天绝大多数主流自动驾驶研究者已将SAE标准当作通行的分类原则。
SAE标准将自动驾驶技术分为0级、1级、2级、3级、4级、5级,共六个级别。具体的级别划分和描述如下页图表99所示:
<img src="/uploads/allimg/200412/1-2004120Q209647.jpg"/>
在SAE的分类标准中,目前日常使用的大多数汽车处在第0级和第1级之间,碰撞告警属于第0级的技术,自动防碰撞、定速巡航属于第1级的辅助驾驶,自动泊车功能介于第1级和第2级之间,特斯拉公司正在销售的Autopilot辅助驾驶技术属于第2级技术。
按照SAE的分级标准,第2级技术和第3级技术之间,存在相当大的跨度。使用第1级和第2级辅助驾驶功能时,人类驾驶员必须时刻关注路况,并及时对各种复杂情况做出反应。但在SAE定义的第3级技术标准中,监控路况的任务由自动驾驶系统来完成。这个差别是巨大的。技术人员也通常将第2级和第3级之间的分界线,视作“辅助驾驶”和“自动驾驶”的区别所在。
当然,即便按照SAE标准实现了第3级的自动驾驶,根据这个级别的定义,人类驾驶员也必须随时待命,准备响应系统请求,处理那些系统没有能力应对的特殊情况。使用这个级别的自动驾驶功能时,人类驾驶员是没法在汽车上看手机、上网、玩游戏的。
所以,虽然从技术标准上说,第3级自动驾驶有它存在的必要,但在实际应用场景里,这一级别的自动驾驶是否真正可用,是很值得我们怀疑的。人类驾驶员一旦发现机器可以应付大多数情况,就会分心去做其他事情,以至于在机器遇到特殊情况时,无法及时、正确响应,并酿成事故。
谷歌曾经在员工中做过一个有趣的实验。自动驾驶团队在谷歌内部招聘了一批数量不多的志愿者,每个志愿者可以“认领”一辆测试用途的自动驾驶汽车回家。这些志愿者都被告知:用于测试的汽车并不完善,仍然需要志愿者坐在驾驶位置,随时准备应对汽车无法处理的路面突发情况。但谷歌的自动驾驶团队发现,志愿者几乎很少听从这个忠告。因为在绝大多数情况下,谷歌的自动驾驶汽车表现得非常好,完全可以自如应对路面上发生的各类复杂情况。这样一来,几乎每个志愿者都会100%放心地将驾驶操作交给汽车,自己则利用乘车的时间,做起任何自己想做的事情来:有乘车时看地图的,有乘车时看视频的,有乘车时躺在后座打盹儿的,有乘车时跟女友亲热的……
这次志愿者测试项目让谷歌自动驾驶团队明白了一点:一旦自动驾驶汽车达到了足够高的水平,车内乘客就会想当然地将所有操控权交给汽车。无论这时候自动驾驶汽车的软件是否还有风险,无论路面上那些极端的路况是不是能被自动驾驶汽车正确处理,车主都不会保持100%的高度警觉。
也就是说,第3级的自动驾驶,目前还很难被不受限制地应用于所有场景。其实,之前已经讨论过,即便是特斯拉基于第2级自动驾驶的Autopilot技术,也存在这方面的问题。从商业化的视角来看,第2级或第3级的自动驾驶技术,将来只会被用于有限的场合,而直接面向第4级甚至第5级的自动驾驶,才是未来最大的商业机会。
<h3>自动驾驶的普及:中国有机会扮演关键角色</h3>
毫无疑问,自动驾驶将在不久的将来走进我们的生活。但真正意义上的,第4级或第5级的自动驾驶技术何时可以商用,人们有各种各样的预测。
初创公司Nu Tonomy希望能在2018年前后在新加坡提供拥有自动驾驶功能的出租车,并在2020年扩展到10座城市100。Delphi和Mobil Eye公司则声称,他们可以在2019年提供满足SAE第4级要求的自动驾驶系统101。百度公司首席科学家吴恩达希望,到2019年时将有大量自动驾驶汽车上路进行测试行驶,到2021年时,自动驾驶汽车将进入大批量制造和商用化阶段102。特斯拉公司创始人埃隆·马斯克宣布,目前上市的特斯拉汽车已经在硬件标准上具备了实现SAE第5级自动驾驶的能力。他预测说,2018年时,特斯拉将可以提供具备完全自动驾驶功能的电动汽车,但也许还要再花一到三年的时间,该型车才能正式获得批准并上市销售103。
我觉得,基于宣传技术和推广产品的考虑,科技公司、初创公司对于第4级、第5级自动驾驶何时可以商用的预测普遍比较乐观。实际情况也许比他们的预测要复杂一些,因为这不仅仅是一个纯技术问题。技术方面,谷歌(Waymo)的自动驾驶系统非常成熟,已经接近商用,也许只要一两年的时间,就可以达到SAE第4级和第5级的标准。但在非技术领域,政府、公众、企业还必须考虑诸多政策的、法律的、经济的、心理的甚至是道德层面的问题。
首先,现有的法律制度、政策、保险体系等,并不是为自动驾驶时代的交通量身定制的,一定存在诸多不合理之处。对于法律体系的改进和完善,一定不要以今天的眼光去预测未来的科技。
比如,当年蒸汽机动力的汽车问世不久,英国议会就于1865年通过了一部《机动车法案》。这部法案后来被人嘲笑为“红旗法案”。法案规定,每辆在道路上行驶的机动车必须由三个人驾驶,其中一个必须在车前面50米以外做引导,还要用红旗不断摇动为机动车开道,并且速度不能超过每小时4英里。结果,直到1896年“红旗法案”被废止前,英国对汽车技术的研发几乎还处于停滞状态,这个法案在英国汽车发展史上起到了极其愚蠢的负面作用。今天,在考虑为自动驾驶汽车制定合适的法规、政策时,我们千万不要落入100多年前英国“红旗法案”的窠臼。
其次,道德问题始终是制约自动驾驶商业化和大规模普及的关键因素。美国人比较喜欢用一个处于两难境地的道德测试来衡量自动驾驶的合理与否,这个测试叫作“有轨电车难题”(Trolley problem)。
英国哲学家菲利帕·福特(Philippa Foot)1967年首次提出这个伦理学的思想实验。问题很简单:假设你看到一辆失控的有轨电车在轨道上高速行驶,电车前方的轨道上有5个毫不知情的行人。如果你什么都不做,那么那5个人会被电车撞死。生死瞬间,你唯一的解决方案是扳动手边的道岔扳手,让电车驶入备用轨道。但问题是,备用轨道上有1个不知情的行人。扳动道岔的结果是,拯救了原轨道上的5个人,却牺牲了备用轨道上的1个人。这种情况下,你会扳动道岔扳手吗?如果用1条生命换回5条生命,你感到难以定夺,那么,假设牺牲1个人可以救50个人呢?
<img src="/uploads/allimg/200412/1-2004120Q20a39.jpg"/>
图43 有轨电车难题(CC BY-SA 4.0,Wikipedia)
换到自动驾驶的商用场景,政府和公众面临着同样难以定夺的诘问。从目前的测试结果看,自动驾驶技术比人类驾驶员驾驶汽车要安全,至少不存在人类驾驶员因为疲劳驾驶、酒驾等问题发生事故的情况。但自动驾驶不是万能的,在极端条件下,比如机器学习系统从未遇到过的情况发生时,自动驾驶系统也有可能导致事故,甚至对人类造成致命的伤害。
2016年5月7日,佛罗里达州的特斯拉电动汽车致死事故发生之后,特斯拉强调,在总计1.3亿英里的Autopilot模式行驶记录中,仅发生了这一起致死事故,据此计算的事故概率远比普通汽车平均每9400万英里发生一起致死事故的概率低。但无论概率有多低,这毕竟是一起致死事故。为了普及自动驾驶技术,人类面临的道德抉择并不比有轨电车难题简单。
如果自动驾驶汽车造成的死亡事故概率比人类驾驶员造成的死亡事故概率低,比如3︰5,那么,你愿意大力推广自动驾驶技术,用每牺牲3个人的代价,换回5个人的生命吗?
我用这个问题问了许多美国朋友,当我说3︰5的比例时,他们都纷纷摇头,连说“不行”。我发现,大多数人脑子里会有一个先入为主的道德假设,那就是人类驾驶员造成的事故已经被视为现行伦理道德体系中的一种客观存在,是人类自身的弱点导致的。但引入自动驾驶后,造成致命事故时,操控汽车的主体由“人类”变为“机器”,这种新的伦理道德关系就很难被现有的体系接受。如果自动驾驶技术可以拯救5个人,但代价是杀死另外3个人,大多数人就感到难以接受。他们是在用人类现有的伦理道德体系去评估机器的行为:采用新技术的决定是人类做出的,实际造成事故的主体却是机器而不是人,人类因为自己的决定,造成了“另外3个人”的死亡,这种道德压力是不言而喻的,这个时候,是否能拯救原本会因人类失误而死亡的5个人,反倒成了不那么重要的因素。
于是,我会问我的朋友:“如果牺牲的生命与拯救的生命比例是1︰5呢?”朋友们通常都会犹豫一下。我会接着追问:“如果是1︰10呢?”这时,有不少朋友就会迟疑地点点头,觉得似乎是一个可以接受的比例。那么“如果是1︰20呢?”这时,大多数朋友都会坚定地站到自动驾驶这一边,支持用较小的代价拯救多数人的生命。
很有意思的思想实验,不是吗?为什么大家在比例是3︰5的时候普遍反对自动驾驶,而在比例是1︰20的时候,就变为普遍支持呢?人类的伦理道德准则难道是用简单的数字就可以衡量的吗?当然,我就此问题询问的主要是美国朋友,他们的答案代表的也只是美国公众的看法,不具有更普遍的意义。
美国国家公路交通安全管理局于2017年1月发表了一份声明,证明特斯拉辅助驾驶系统Autopilot与2016年5月7日发生在佛罗里达的致命交通事故没有直接关系,事故的直接原因是驾驶员忽视操作提醒,没有对道路上的危险保持随时监控和快速反应。美国国家公路交通安全管理局还强调说,特斯拉在安装了Autopilot辅助驾驶系统后,事故发生率降低了40%104。
特斯拉第2级别的辅助驾驶系统Autopilot使事故概率降低了40%,这和前面假设的3︰5的比例不谋而合。大家通常会接受特斯拉的辅助驾驶功能,因为该功能要求人类驾驶员全程监控,随时参与操作。但同样是3︰5的比例,换到第4级和第5级的自动驾驶汽车上,大家就会感到难以接受。这其中,微妙的心理因素非常值得我们探讨和关注。
另一个困扰自动驾驶技术商业化的因素是失业问题对传统行业的冲击。而这种冲击,也因不同地方、不同人群而存在巨大差别。
新的科技总会引起不同层面的社会、经济影响,这种影响在有着牢固社会传统的地方,很可能会被人们视为威胁。杰瑞·卡普兰讲过一个很有趣的例子:同样是提供汽车分享和出租服务,优步在旧金山做的事情被大加赞赏,可在伦敦做的同样的事情却饱受批评。优步在伦敦造成了许多人失业。伦敦有非常发达的出租系统,伦敦人管传统的出租车叫“黑色出租”。这些出租车的司机是一个有着悠久历史的社会职业,他们需要对街道非常熟悉,以通过上岗测试。优步在伦敦破坏了这样的传统,因为任何人只要有一辆车就可以成为优步司机。在这件事上,优步低估了英国人对于传统职业的重视。伦敦的许多人痛恨优步,他们认为优步是对英国社会的破坏。但在旧金山,每个人都觉得优步棒极了。人们赞扬优步,几乎没有什么负面报道。这是同一件事在不同城市得到的不同评价。所以,你很难说某项技术是好的,或者是坏的。105
自动驾驶也一样。在美国,绝大多数人都同意,自动驾驶汽车的一个最好的应用场景,就是去取代那些工作负荷繁重、容易因长途驾驶时的疲劳而导致事故的卡车司机。但即便是这样一个在技术层面显而易见的事情,在牵涉到社会和经济问题时,也会变得十分复杂。
2016年时,美国有大约150万名卡车司机(另一种说法是180万名),全美约70%的货物运输,都是由这些卡车司机驾驶大货车通过公路完成的。目前,卡车行业已经出现了司机短缺的问题。根据美国卡车运输协会(American Trucking Associations)的估计,全美短缺的卡车司机数量是大约4.8万名。106
以美国Otto公司(已被优步收购)为代表的一批科技团队,已经开始为卡车研发自动驾驶系统。在美国,卡车运输的路况、环境相对单一,相关的自动驾驶系统在技术上的难度不大。但问题是,如果用自动驾驶系统解决卡车司机短缺的问题,那必然会受到所有人的欢迎,可如果用自动驾驶系统来替代现有的150万名卡车司机,还会赢得大众的支持吗?如此大规模的失业或转岗,美国政府就必然要面临卡车司机工会的问责了。
图44 优步Otto正在测试的自动驾驶卡车(CC BY 2.0,Wikipedia)
<img src="/uploads/allimg/200412/1-2004120Q210625.jpg"/>
Otto联合创始人兼总裁利奥尔·荣恩(Lior Ron)认为,人类卡车司机短期内没有失业的风险,他说:“未来将会发生的事情,是那些卡车司机变成了技术系统的助理驾驶员,在自动驾驶系统较难处理的室内路况上,替代自动驾驶系统完成驾驶操作,然后在高速公路上启动Otto自动驾驶系统,让机器替自己完成冗长、乏味、容易犯困和出危险的驾驶里程。在可预见的未来,卡车的驾驶室里都会坐着一个驾驶员,而且,这个驾驶员的工作将变得更安全,可以赚到更多的钱,可以更快地抵达目的地。”107
利奥尔·荣恩说的只是基于目前技术的预测。如果展望更长久的未来,当卡车上使用的自动驾驶技术趋于完善,可以适应拥挤的城市等各种不同路况时,卡车司机确实有大批被取代、大批失业的风险。对于这样的未来,150万名卡车司机肯定是充满疑惑甚至坚决反对的,美国的卡车司机工会也会站出来维护司机们的利益。
一个可以类比的例子是美国的煤矿工人。因为自动化开采技术的使用,美国煤矿工人的数量从1980年时的22.9万人,降低到了目前的大约8万人。在过去的5年间,就有5万煤矿工人失去工作。108这5万失去工作的煤矿工人在美国的各阶层看来是一个重大的社会和政治问题,连总统也必须亲自过问,以妥善处理好这些“下岗”工人的安置和再就业问题,否则,美国势力强大的工会组织就会对议员、总统施加极大的政治压力。想一想,5万名煤矿工人尚且能引起全美政治家的关注,如果被取代的是150万名卡车司机呢?
当然,也有美国网友提出了另一种有些调侃的思考方式:“政治上来说,卡车司机工会是会去阻止自动驾驶系统取代卡车司机的进程的,但他们也会感受到来自另一方面的压力。如果保险公司不再为人类驾驶员承保,因为自动驾驶系统几乎从不出事故,这样一来,不就轻松解决了替代人类驾驶员的问题了吗?另外,人类司机在新成立的运输公司里不会有任何发言权,因为这些公司根本就不会雇用司机。司机工会也没有能力阻止司机失业,因为他们向雇主争取权益的主要武器就是罢工,可是在依靠自动驾驶系统的公司里,他们的罢工又有什么意义呢?”109
当然了,这位网友的话只是一种调侃,真实情况里,美国政治家和公众是必须正视卡车司机工会的诉求,防止短期内出现大规模失业问题的。
有关自动驾驶的商业化以及人工智能技术带来的失业等问题,我与卡内基-梅隆大学计算机科学学院的院长安德鲁·摩尔(Andrew Moore)有过一次面对面的交流。我和安德鲁·摩尔都认为,类似的情况,在美国和在中国,政府与公众的态度会有很大的不同,新科技被接受的程度、普及的速度也会有巨大差别。
如果单考虑制造业,美国很多工厂都已经自动化了,需要人工劳动的生产线大多都已经被送到别的国家了,所以,美国比较容易接受在生产线上使用机器人技术(当然,特朗普出任美国总统后开始执行的“美国制造”等反全球化的经济政策,会为这一趋势带来小小的变数)。反观中国,从事制造业的工人数量庞大,如果大量使用机器人技术,就会有比较切实的下岗和再就业方面的挑战。
但是考虑到运输行业,例如卡车司机、公交车司机等岗位,因为在美国涉及百万以上的人群以及历来强势的工会组织,美国政府在进行决策时就会受到一定的影响(特朗普上台后,这一影响会更加明显)。美国政府、国会、两党都非常担心相关政策一旦考虑不周,就会影响到大量手握选票的底层选民。美国科技界则因此担忧,先进技术如果因为底层人群的反对,而在商业化和普及方面表现迟缓,那反过来就会影响相关科研领域的投资,使得美国错失人工智能领域的未来机会。再加上有关自动驾驶汽车致死多少人、拯救多少人的伦理道德考虑,自动驾驶技术在美国的普及就面临重重阻力。
欧盟基于安全的考虑,对自动驾驶的普及也持谨慎态度。我在出席2017年瑞士达沃斯世界经济论坛时了解到,欧盟对自动驾驶技术的要求是,不能用迭代、不断改进的心态去开发自动驾驶软件,而是要第一个商用版本就做到足够安全110。
在中国,情况也许会不一样。首先,中国是一个快速发展的国家,在全国和城市的交通路网建设上,一直处于不断建设、不断更新的状态。中国比其他任何一个国家都容易从道路建设的角度入手,为自动驾驶汽车配备专用的路面、交通标志甚至制定有针对性的交通法规。这可以弥补自动驾驶技术本身的许多缺陷,将自动驾驶技术发生事故的风险大幅降低。
其次,中国在尝试新科技方面的阻力没有美国那么大,中国政府集中力量支持技术突破的能力也远比美国政府要强。中国快速建成四通八达的高速公路网络以及奇迹般地只用几年时间就建立了全世界最快、最长的高速铁路系统,就是这一点的最好体现。类似的事情当然可能发生在自动驾驶汽车的普及上。为了在技术尚未达到第5级自动驾驶的水平时,鼓励第4级和第2级技术的商业应用,中国完全可能设计一些自动驾驶的早期试点道路、试点园区乃至试点城市,为自动驾驶汽车创造出符合技术要求的路况环境,在确保安全的基础上,尽早开始自动驾驶汽车的商业运营。这样一来,技术迭代就可以更快速地完成,在中国做自动驾驶相关的科研,就会比在美国或欧洲更容易拿到好的数据、找到好的测试场景,这对自动驾驶在未来的进一步发展十分重要。
再次,中国在评估自动驾驶系统带来的伦理道德问题时,通常会比美国政府、公众的态度更为务实。既然数据已经证明自动驾驶系统比人类驾驶员更安全,那么,从伦理道德角度去比较自动驾驶系统可能危及多少人的生命,人类驾驶员可能伤害多少人的生命,这又有多少实际意义呢?
基于以上考虑,安德鲁·摩尔教授和我都认为,在自动驾驶技术走入商业化和普及的未来10年里,中国有机会扮演非常关键的角色。
中国的实际交通状况比美国要复杂得多,每年因为疲劳驾驶、酒后驾驶导致的交通事故,数量相当惊人。自动驾驶系统的应用,对于改善中国交通状况,减少人为交通事故的意义非常重大。
同时,中国面临的交通拥堵问题、环境问题压力巨大。中国的大中型城市动辄拥有数百万甚至一两千万的人口,如果每个家庭都像美国一样保有一两辆机动车,那必然造成中国所有城市道路天天堵、年年堵,中国城市的天空很难摆脱雾霾的阴影。自动驾驶技术可以非常容易地将家庭用车模式转变为共享用车的模式。自动驾驶汽车随叫随到,每个家庭不需要长期保有自己的车辆,也不需要购置停车场地。通过基于自动驾驶的分享经济,中国可以大幅减少汽车的保有量,从根本上解决交通堵塞和汽车尾气污染等问题。
想象一下,在未来每个中国家庭的主要用车场景里,上下班可以用手机呼叫附近的自动驾驶出租车,商务活动可以预先约好自动驾驶的商务汽车,家庭购物、游玩既可以呼叫附近的共享汽车,也可以亲自驾驶私家车体验驾驶乐趣……那个时候,每一部共享的自动驾驶汽车都没有驾驶员,约车服务完全由计算机算法根据最优化的方案,在最短时间内将自动驾驶汽车匹配给需要用车的消费者。政府对网约车可以集中管理。城市路面的公交系统,主要由自动驾驶汽车担任运输主力。城市之间的货物运输,也因为有了自动驾驶系统而更加便捷、高效。
自动驾驶将是中国未来10年科技发展面临的最重要的机遇之一。中国有全球最大的交通路网、最大的人口基数,自动驾驶的大规模商业化和技术普及反过来会促进自动驾驶相关科研的飞跃式发展。这种从科研到应用,从应用再反馈到科研的良性循环,正是中国能否在未来10年内,建立起世界先进水平的人工智能科技体系的关键。
<h2>智慧金融:AI目前最被看好的落地领域</h2>
2016年9月5日,嘉信理财集团(Charles Schwab)的首席投资战略师丽兹·安·桑德斯(Liz Ann Sonders)在她的个人推特页面上贴出了两张对比鲜明的图片。那是瑞士银行设在美国康涅狄格州的交易场,整个交易场的面积比一个足球场还大,净空高度超过12米,交易场内曾经布满了一排排的桌椅和超过一万名的资产交易员,是世界上最大的金融资产交易场所。可是,2016年人们在这里看到的却是一片萧条景象,原本繁忙的交易场内,桌椅稀稀拉拉,几近门可罗雀。
丽兹·安·桑德斯的推特图片展示了短短5年多的时间里,金融资产交易行业的巨大转型。瑞士银行设在康涅狄格州的这家交易场,原本从纽约华尔街吸引了大批金融工作者,但是,自2011年起,这家交易场裁掉了超过一万名前台交易员111。2016年年底,整个交易场地更是被廉价出售112。
<img src="/uploads/allimg/200412/1-2004120Q2105W.jpg"/>
图45 丽兹·安·桑德斯在推特上贴出瑞银位于康涅狄格州的交易场时隔5年的对比
雇用大量交易员在集中场所进行资产交易的方式,正在从我们这个地球上消失。瑞士银行康涅狄格州交易场的衰落,固然是金融危机后,全美金融业被迫采取诸多结构调整和转型的结果之一,也的确和近年来人工智能算法替代人类交易员的大趋势密不可分。就在丽兹·安·桑德斯展示交易场对比图片的推文之下,一位名叫迈克尔·哈里斯(Michael Harris)的金融交易分析师(他同时也是一种基于机器学习技术的交易算法开发者以及几本金融交易类畅销书的作者)评论说:“所有(这些交易员)都被少数几种算法取代了。”113
人类交易员大量被机器算法所取代,这只是人工智能正在智慧金融建设中发挥重要作用的冰山一角。事实上,包括银行、保险、证券等在内的整个金融行业,都已经并正在发生着用人工智能改进现有流程,提高业务效率,大幅增加收入或降低成本的巨大变革。2017年,据彭博社报道,摩根大通开发了一款金融合同解析软件COIN,已经上线半年多。经测试,原先律师和贷款人员每年累计需要36万小时才能完成的工作,COIN只需几秒就能完成。而且,COIN不仅在“工作”时错误率低,还不用放假。114
据高盛集团2016年12月发布的报告指出,在金融行业,“保守估计,到2025年时,机器学习和人工智能可以通过节省成本和带来新的盈利机会创造大约每年340亿~430亿美元的价值,这一数字因为相关技术对数据利用和执行效率的提升,还具有更大的提升空间”115。
我们已经知道,人工智能之所以能在近年来突飞猛进,主要得益于深度学习算法的成功应用和大数据所打下的坚实基础。判断人工智能技术能在哪个行业最先引起革命性的变革,除了要看这个行业对自动化、智能化的内在需求外,主要还要看这个行业内的数据积累、数据流转、数据存储和数据更新是不是达到了深度学习算法对大数据的要求。
放眼各垂直领域,金融行业可以说是全球大数据积累最好的行业。银行、保险、证券等业务本来就是基于大规模数据开展的,这些行业很早就开始了自动化系统的建设,并极度重视数据本身的规范化、数据采集的自动化、数据存储的集中化、数据共享的平台化。以银行为例,国内大中型银行早在20世纪90年代,就开始规划、设计、建造和部署银行内部的大数据处理流程。经过20多年的建设,几乎所有主要银行都可以毫不费力地为即将到来的智能应用提供坚实的数据基础。
需求层面,金融行业有着各垂直领域里最迫切的自动化和智能化的需求,而基于深度学习的现代人工智能技术正好可以满足这些需要。
过去的几十年里,金融行业已经习惯了由人类分析师根据数学方法和统计规律,为金融业务建立自动化模型(比如,银行业经常使用的控制信贷风险的打分模型),或者采用较为传统的机器学习方法(非深度学习)用机器来自动完成数据规律的总结,以提高金融业务的运营效率。在一个动辄涉及几千、几万数据维度的行业里,人类分析师的头脑再聪明,也无法将一个待解决问题的所有影响因子都分析清楚,只能采用简化的数学模型,来拟合复杂数字世界里的隐含规律。而基于深度学习的人工智能算法显然可以在数据分析与数据预测的准确度上,超出人类分析员好几个数量级。
拿股票买卖来说,人类股票分析师的大脑里最多能够记住几百只股票的交易规律、价格走势,最多能根据股票市场内的几千个影响股价的因素,制定出简化的交易策略。而基于机器学习特别是深度学习实现的量化交易程序,则可以轻松应对几万、几十万个变化因子,全面观察交易场内、场外的各种影响因素,在需要时,可以盯紧全世界每一只股票的交易价格,每一次交易的实时情况,每一个交易市场的整体波动规律,每一个投资人和投资机构在全部历史时间内的交易策略,乃至世界所有证券、财经类媒体上每一篇关乎股票价格的报道,Facebook和推特上每一次关乎股票价格的讨论……基于这种海量、实时数据的量化交易算法,显然有可能发现诸多人类股票分析师难以发现的隐含规律,并利用这些隐含规律,获得远远超过人类的交易收益。
根据高盛公司的评估,金融行业里,最有可能应用人工智能技术的领域主要包括:
·量化交易与智能投顾:一方面,人工智能技术可以对金融行业里的各项投资业务,包括股权投资、债券投资、期货投资、外汇投资、贵金属投资等,利用量化算法进行建模,并直接利用自动化算法参与实际交易,获取最高回报。另一方面,人工智能算法也可以为银行、保险公司、证券公司以及它们的客户提供投资策略方面的自动化建议,引导他们合理配置资产,最大限度规避金融市场风险,最大限度提高金融资本的收益率。
·风险防控:银行、保险等金融机构对于业务开展中存在的信用风险、市场风险、运营风险等几个主要风险类型历来高度重视,投入了大量人力、物力、财力采集相关数据,制定风险模型或评分系统,采用各种方法降低风险,减少损失。而近年来新兴的互联网金融公司,由于其业务的特殊性,更加需要对客户的信用风险进行准确评估。相关的风险防控体系需要依赖高维度的大量数据进行深入分析,在这方面,基于深度学习的现代人工智能算法与人类分析员或传统机器学习算法相比,有着先天的优势,可以对更为复杂的风险规律进行建模和计算。
·安防与客户身份认证:基于新一代机器视觉技术的人工智能产品正在各大银行的客户端产品和网点承担起客户身份认证与安防的工作。今天我们使用支付宝或各大银行的手机银行时,已经有不少应用需要我们打开手机摄像头,计算机自动将摄像头采集的用户脸部图像与用户预存的照片进行比对,以确认用户的真实身份。银行各办公网点则可以利用新一代人脸识别技术,对往来人员进行身份甄别,确认没有坏人进入敏感或保密区域。
·智能客服:银行、保险、证券等行业为确保客户服务质量,一般都建立了大规模的呼叫中心或客服中心,雇用大量客服人员,利用电话、网站、聊天工具、手机应用等方式,解答客户问题,解决客户疑难。随着支持语音识别、自然语言理解和知识检索的人工智能客服技术逐渐成熟,金融行业的客服中心会慢慢引入机器人客服专员,由人工智能算法代替人类工作人员,并最终建立起全智能化的客服中心。
<img src="/uploads/allimg/200412/1-2004120Q210533.jpg"/>
图46 银行业中,人工智能相关应用场景一览116
·精准营销:如何将金融产品通过传统媒体、网络媒体、手机应用广告等营销方式,传递给最有可能购买该金融产品的客户,这是提高金融行业获客效率,提升盈利能力的关键。基于深度学习的人工智能技术可以基于多来源、多维度的大数据,为银行潜在客户进行精准画像,自动在高维空间中,根据潜在客户曾经的购买行为、个人特征、社交习惯等,将潜在客户分为若干种类别,并为每一种类别的潜在客户匹配最适合他们的金融产品。
图46以银行业为例,显示了人工智能正在和即将发挥重要作用的各个应用场景。
<h3>金融行业AI应用成功案例</h3>
目前,国内外人工智能在金融领域的应用已有诸多成功案例。美国的Wealthfront和Betterment、英国的Money on Toast、德国的Finance Scout 24、法国的Marie Quantier等均成功将人工智能引入投资理财,目前智能顾问已掌握大量资产;第一个以人工智能驱动的基金Rebellion曾成功预测了2008年股市崩盘,并在2009年给希腊债券F评级,而当时惠誉的评级仍然为A,通过人工智能,Rebellion比官方降级提前一个月;掌管900亿美元的对冲基金Cerebellum,使用了人工智能技术,从2009年以来一直处于盈利状态。
在国内,蚂蚁金服已成功将人工智能运用于互联网小贷、保险、征信、资产配置、客户服务等领域;智融金服利用人工智能风控系统已经实现月均120万笔以上的放款,常规机器审核速度用时仅8秒;招商银行的可视化柜台、交通银行推出的人工智能机器人“娇娇”等则在智能客服领域做出了早期的尝试和探索。
在创新工场所投资的公司里,以机器学习见长的第四范式就在银行业的精准营销、资产预测、风险防控等方面做得非常出色;以机器视觉见长的旷视科技(主打产品是人脸识别系统Face++),则为传统金融及互联网金融提供了身份验证、智能门禁、员工考勤等先进的解决方案;以互联网小额信贷平台为主营业务的用钱宝公司,则利用人工智能技术建立了高质量的风控模型,大幅提高信贷业务的通过率,降低坏账率,实现了惊人的业绩增长。
以用钱宝公司为例,这家公司主打的移动端app于2015年7月才上线,短短一年半的时间,到2016年12月,用钱宝app的单月交易笔数就突破了100万。这个增长速度在金融类移动应用中是非常惊人的。用钱宝之所以能在保证风险可控的情况下高速增长,最关键的秘密只有一个——用机器学习技术自动分析包含大量强特征和弱特征的数据,自动判断交易风险。
传统信贷风控经常使用一种叫作“风险评分卡”的数学模型,这个模型依赖于大量以非0即1的形式存在的强特征,综合计算一个客户的风险等级。这样的传统数学模型考虑的因素少,对现实风险的拟合非常简单,难以直接迁移到强特征不明显的互联网金融客户上。
如果把一个人的数据比作一座冰山,那么强特征数据仅是冰山的一角,之下还存在海量的弱特征数据,例如电商数据、设备数据、位置数据、行为数据等。同时,作为百业之母的金融行业与整个社会存在巨大的交织网络,本身沉淀了大量有用或者无用数据,其中包括各类金融交易、客户信息、市场分析、风险控制、投资顾问等。这些数据单位都是海量级,且大量数据又以非结构化的方式存在,无法转换成传统模型可有效分析的数据。
以深度学习为代表的人工智能算法所要做的,就是充分挖掘并有效地利用这些海量弱特征数据,建立起更加符合真实世界规律的数学模型。虽然无法凭借其中少数几条数据就做出借贷决定,但如果把几百个甚至几千个维度的数据综合起来,就可以训练出有效的风控模型,并以此为风控依据为用户做出借贷决定。
在人工智能技术的驱动下,用钱宝等新型金融应用可以在大大减少人工劳动的同时,大幅提高效率,降低成本。未来的金融科技必将是互联网与AI的有机结合,由此产生的智慧金融服务将成为每个人生活的重要组成部分。
<h3>AI科学家的土豪人生</h3>
金融市场上,用人工智能技术自动建立预测模型,自动进行量化交易来赚钱,是许多数学天才和计算机科学家都热衷的研究方向。
其实,科学家与金钱的关系,本身就是个值得探讨一辈子的有趣话题。现如今,真正有才的人工智能科学家凤毛麟角,能被谷歌、Facebook、百度等顶级公司抢来抢去的顶级科学家,年薪动辄几百万美元。这在普通码农眼里,已经是非常高的收入了。但如果说,最聪明的计算机科学家可以在金融市场上轻松收入几十亿美元,这样的财富神话,你会相信吗?
还记得此前提到过,我在做语音识别的时候,是受到IBM一位叫彼得·布朗的师兄的启发,才走上统计学道路的吗?我们现在就来说说这个彼得·布朗的故事。
当时,在IBM研究中心,鉴于统计学方法在语音识别领域的成功,彼得·布朗和他们这个研究小组的同事们基本都“归顺”了统计流派。这个小组的许多人后来一直从事语音识别研究,可彼得·布朗不是在一个领域一耗若干年的那种人。这个组里还有另一个不安分的人,他的名字后来经常与彼得·布朗并列,他叫罗伯特·默瑟(Robert Mercer),通常人们也称他为鲍勃·默瑟(Bob Mercer)。
鲍勃比彼得年长,1972年就加入了IBM研究中心。鲍勃和彼得玩腻了语音识别,就开始去弄机器翻译。反正是人工智能领域的几大难题之一。这一下,还真捅了马蜂窝。要知道,在20世纪八九十年代,语音识别和机器翻译在经典人工智能科学家的心里,地位是有天壤之别的。
语音识别,不就是听见啥输出啥,一个听写机器而已嘛。符号语言学的方法在语音识别上派不上用场,统计学方法大放异彩,那完全是因为问题本身就不属于高级智能的范畴。机器翻译?那可是要理解原文语法、语义,然后转换成目标语言的语法、语义的。论智能程度,语音识别是两三岁孩子的水平。跨语种翻译?那可是许多翻译大家皓首穷经,一辈子也难以企及的高远境界。这玩意儿绝对算得上是高级智能,是人类智慧的精华,要用计算机来解决翻译问题,非得懂得人类思想方法,懂得语言学不可。
鲍勃和彼得这两个浑身码农味道的研究员,居然要用什么概率统计方法来解决机器翻译问题,这真是要被语言学家们笑掉大牙的。这故事的结局大家肯定猜得到,鲍勃和彼得带领的机器翻译小组只用了很短的时间,就建立了一套可以运行的,基于大语料统计模型的机器翻译系统,居然得到了不算太糟的结果,至少,那结果比经典语言学方法得到的结果更接近人类语言,更让用户信服。从那以后,成功的机器翻译系统比如谷歌翻译走的都是统计模型的道路(今天更是在统计模型的基础上增加了深度学习这个高级武器)。鲍勃和彼得的工作并不复杂,但他们在机器翻译领域的贡献直到许多年后还有人记得。2014年,计算语言学会议给鲍勃·默瑟颁发了终身成就奖。
鲍勃比彼得从事研究的时间长些,论文也比彼得多些。两个人都在语音识别和机器翻译这两个领域取得了不俗的成就,算得上人工智能发展史上的重要人物吧。功成名就之后,大概可以考虑过在大公司带带团队,在高等院校指导指导学生,没事儿就去申请申请科研经费的所谓“后半生”了。
别人的人生到达顶峰,鲍勃和彼得的人生才刚开始。他们的人生目标不是赚一个亿,而是赚十个亿,一百个亿,甚至更多——而且,是运用计算机科学的方法,借助计算机科学家特有的敏锐头脑和人工智能知识。
有一家高科技公司,在熟悉投资和基金的人听来如雷贯耳,在普通码农听来,却多半是丈二和尚摸不着头脑。这家公司叫文艺复兴科技(Renaissance Technologies)。
文艺复兴科技?听起来像什么公司?前半部分像搞艺术的,后半部分像搞电脑的?其实,这是家特别特别著名的,用量化交易来赚钱的对冲基金公司。
文艺复兴科技的创始人詹姆斯·西蒙斯(James Simons)老先生本身就是个很牛的数学家,还是个很有黑客精神的密码学家(据说攻破过美国政府的密码系统),此外,他还立志用数学模型来赚钱——可谓既有科学情怀、极客情怀,又有财富情怀。当然,寻常老百姓看不懂他在数学领域做了啥,也没法知道他究竟破解了哪些密码,大众只知道他经常在福布斯富豪榜上排在前100名里。至于他到底有几百亿的身家,网上有不少数据,有没有水分不好说,反正他每年至少入账一二十亿,媒体对他的一致评价是——世界上最聪明的亿万富翁。
詹姆斯·西蒙斯之所以能赚那么多钱,主要是文艺复兴科技的几只基金,特别是一只叫大奖章基金的,表现超乎寻常,年均回报高达71.8%117,难怪这基金连管理费和业绩分成都比同行高出一倍还多。詹姆斯·西蒙斯把基金成功的主要原因归结为数学魔术。当然,大奖章基金到底是如何建模的,外人大多只能猜测些皮毛,真正的魔术技法,文艺复兴科技才不会随便透露。即便最近几年外界对文艺复兴科技的质疑声渐多(特别是大奖章基金以外的几只基金表现不佳),大奖章基金依然在最牛基金排行榜的前列屹立不倒。姑且认为,基于机器学习的人工智能技术就是这一类顶级基金公司的印钞机好了。
据说,詹姆斯·西蒙斯招人的条件颇为严格,一定要找最聪明的数学家或计算机科学家,坚决不找学金融的、学工商管理的。文艺复兴科技的公司内部,基本上就是一个极客乐园,一点儿也没有华尔街那些世俗金融企业的影子。1993年,鲍勃·默瑟和彼得·布朗这两个在人工智能领域已经颇有名气的研究员被詹姆斯·西蒙斯招至麾下,开始和文艺复兴科技里的数学家、计算机科学家一道,用人工智能技术投资理财,走上了光芒万丈的财富之路。
2009年,詹姆斯·西蒙斯退休,鲍勃·默瑟和彼得·布朗出任文艺复兴科技的联合CEO,正式成为财富巨轮的领航人——这么说显得不那么功利,其实,作为这家神奇公司的CEO,他们自己也早就变成亿万富翁了。福布斯的估计是他们每人每年都能净入一亿美元以上。
从大学校园和IBM研究中心走出来的计算机科学家领导一家基金公司,这件事在华尔街并不算新鲜,但在不熟悉金融圈、投资圈的码农们看来,确实有些不可思议。科学家和财富之间,什么样的关系才最和谐?
就爱好、性格、个人生活来说,鲍勃·默瑟和彼得·布朗也都算得上是神人级的存在。而且,他们俩的性格还大不一样。彼得·布朗爱动,话痨,好胜,据说喜欢在公司健身房跟员工角力,也花了不少精力将财富投到慈善事业里。鲍勃·默瑟就不大一样,他说自己喜欢孤独,宁愿不跟人说话。可另一方面,鲍勃·默瑟又是个著名的政治活动参与者,参与的方法很简单——大把大把地捐钱。从2012年总统竞选,到2016年的特朗普和希拉里的竞选,鲍勃·默瑟以个人或家族名义,几百万几百万地捐出政治献金。他的女儿瑞贝卡(Rebekah)更是直接站在前台支持特朗普,参与竞选团队的事务和决策。此外,诸如鲍勃·默瑟和女儿都是德州扑克高手,鲍勃·默瑟拥有多少多少游艇,业余时间爱玩一套几百万美元的铁路模型之类,只能算是亿万富翁的日常生活一隅,实在不足以成为多么了不起的谈资。
<h2>智慧生活:从机器翻译到智能超市</h2>
在本书的开头,我们已经提到过,人类生活中已处处是人工智能的身影。我们日常使用的手机上,几乎每个流行的应用程序里面都有人工智能大显神通的地方。那么,放眼5到10年后的未来,我们每个人的生活中,到底还会有哪些人工智能元素熠熠生辉呢?
与机器视觉、语音识别取得的突破相比,人工智能对人类语言的理解目前还处在相对滞后的阶段。基于深度学习的人工智能算法已经可以十分准确地完成“听写”或“看图识字”的操作,但对听到的、看到的文字的意思,机器还是比较难以准确掌握。
未来5到10年里,在自然语言理解方面,也许最可能取得重大突破的就是机器翻译。在本书开头,我们已经谈到过谷歌公司的机器翻译系统在2016年取得的重大突破。目前的机器翻译水平,大概相当于一个刚学某种外语两三年的中学生做出的翻译作业。对于多数非专业类的普通文本内容,机器翻译的结果已经可以做到基本表达原文语意,不影响理解与沟通。
那么,假以时日,不断提高翻译准确度的人工智能系统,会不会在某个普通的日子里,像下围棋的Alpha Go那样悄然越过了业余译员和职业译员之间的技术鸿沟,一跃而成为翻译大师了呢?
还记得《星球大战》电影中的C-3PO机器人吗?据说C-3PO可以流利地完成银河帝国里超过六百万种语言的对话交流,这是一个不折不扣的来自未来的翻译大师。在《星球大战》的世界里,人类是不需要学习星际语言的,人类口译员、书面翻译、同声传译员等工作也没有必要存在,一切都可以交给这个机器人来解决。
<img src="/uploads/allimg/200412/1-2004120Q210X1.jpg"/>
图47 《星球大战》中擅长翻译的C-3PO机器人
C-3PO机器人预示的未来,真的离我们很远吗?一旦机器翻译技术在不断积累的基础上突破了人类可接受的心理阈值,达到了人类翻译的水准,那时,我们有何必要花费生命中大约五分之一的时间去学习和精通一两门甚至更多门的外语?我们有何必要雇用如此多的翻译职员?出门旅行,出国参与商务或学术活动的时候,带上一部安装了机器翻译程序的手机,不就可以与外国人顺利沟通了吗?