人工智能已经来了,而且它就在我们身边,几乎无处不在。
我们真的知道什么是人工智能吗?我们真的准备好与人工智能共同发展了吗?我们该如何在心理上将人和机器摆在正确的位置?我们该如何规划人工智能时代的未来生活?
<h2>
人类,你好!</h2>
“不管我们是碳基人类还是硅基机器人,都没有本质的区别。我们中的每一员都应获得应有的尊重。”
这是科幻文学巨匠亚瑟·克拉克(Arthur C.Clarke)在太空漫游系列第二部《2010:太空漫游》中描绘的一段对白。从情感上说,人类多么希望有朝一日可以和人类创造的智能机器平等相处,共同发展。可有趣的是,每当前沿科技取得重大突破,为我们预示出人工智能的瑰丽未来时,许多人就又不约而同地患上人工智能恐惧症,生怕自己的工作乃至人类的前途被潜在的机器对手掌控。
“人工智能来了!”
这句话对不同的人群有着完全不同的含义。计算机科学家很少怀疑人工智能在推动人类技术进步上的伟大意义,这个意义甚至可以和人类发明蒸汽机、电力、核能,或者用火箭探索太空相提并论;社会学家、经济学家更多地关注人工智能已经或即将对人类经济结构、就业环境造成的巨大挑战;科幻作家、影视编导和未来学家则乐于看到人工智能技术一次又一次激发起大众如火的热情,他们从不忌惮用最缥缈的想象将人类未来渲染成天堂或地狱……
可绝大多数不熟悉技术细节,或不具备瑰丽想象力的普通人呢?
普通公众对人工智能快速发展的认知,始于2016年初Alpha Go的惊世对局。在欣赏围棋对局的同时,人们总是不惜发挥丰富的想象,将Alpha Go或类似的人工智能程序与科幻电影中出现过的,拥有人类智慧,可以和人平等交流,甚至外貌与你我相似的人形机器人关联起来。
<img src="/uploads/allimg/200412/1-2004120Q14Q91.jpg" />
图1 电影《机械姬》的海报(该片曾获得奥斯卡最佳视效奖)
“人工智能来了?他/她在哪里?他/她长什么样儿?他/她说中文吗?他/她是好人还是坏人?”
很遗憾,目前的人工智能并不像电影《机械姬》中的人形机器那样美貌迷人。想象与现实间的巨大反差,让不少人难以适从。在人工智能面前,公众经常流露出好奇、迷茫或讶异的神情:
“人工智能有人格吗?”
“我可以和机器人谈恋爱吗?”
“机器人会毁灭人类吗?”
“人类是不是可以移民火星,留下机器人建设地球了?”
我们真的知道什么是人工智能吗?我们真的准备好与人工智能共同发展了吗?我们该如何在心理上将人和机器摆在正确的位置?我们该如何规划人工智能时代的未来生活?
想真正理解和认识人工智能,首先我们必须面对一个可能让很多人难以相信的事实:
人工智能已经来了,而且它就在我们身边,几乎无处不在。
<h2>
无处不在的人工智能</h2>
请抛开人工智能就是人形机器人的固有偏见,然后,打开你的手机。我们先来看一看,已经变成每个人生活的一部分的智能手机里,到底藏着多少人工智能的神奇魔术。
图2显示了一部典型i Phone手机上安装的一些常见应用程序。可能很多人都猜不到,人工智能技术已经是手机上许多应用程序的核心驱动力。
苹果Siri、百度度秘、Google Allo、微软小冰、亚马逊Alexa等智能助理和智能聊天类应用,正试图颠覆你和手机交流的根本方式,将手机变成聪明的小秘书;新闻头条等热门新闻应用依赖于人工智能技术向你推送最适合你的新闻内容,甚至,今天的不少新闻稿件根本就是由人工智能程序自动撰写的;谷歌照片(Google Photos)利用人工智能技术快速识别图像中的人、动物、风景、地点……快速帮用户组织和检索图像,美图秀秀利用人工智能技术自动对照片进行美化,Prisma和Philm等图像、视频应用则基于我们拍的照片或视频完成智能“艺术创作”;在人工智能的驱动下,谷歌、百度等搜索引擎早已提升到了智能问答、智能助理、智能搜索的新层次;以谷歌翻译为代表的机器翻译技术正在深度学习的帮助下迅速发展;使用滴滴或优步(Uber)出行时,人工智能算法不但会帮助司机选择路线、规划车辆调度方案,不远的将来,自动驾驶技术还将重新定义智慧出行、智慧交通和智慧城市;使用手机购物时,淘宝、亚马逊等电子商务网站使用人工智能技术为你推荐最适合你的商品,而先进的仓储机器人、物流机器人和物流无人机正帮助电子商务企业高效、安全地分发货物……
<img src="/uploads/allimg/200412/1-2004120Q14X96.jpg" />
图2 i Phone手机上的人工智能相关应用
怎么样?听起来,小小的手机屏幕上,人工智能是不是无处不在?来听一听最厉害的人工智能科学家们怎么说。
我的导师——图灵奖得主拉吉·瑞迪(Raj Reddy)说:“AI在主流社会中的应用有很多。IBM的深蓝和Watson应该算是其中最广为人知的代表。……另外一些知名的AI应用实例还包括:1)谷歌的翻译系统,它能够实现任意语言之间的互译;2)像苹果Siri、微软小娜(Cortana)和亚马逊Alexa这样能够进行对话的智能助手;3)近期一些在自动驾驶汽车领域的进展。”
而谷歌最资深的计算机科学家与软件架构师、谷歌大脑开发团队的带头人杰夫·迪恩(Jeff Dean)则说:“很多时候(人工智能)都是藏在底下,因此人们并不知道有很多东西已经是机器学习的系统在驱动。这里面包括由语言理解系统所支持的谷歌搜索、谷歌翻译、Gmail的快速回复功能,现在电话上的语音识别功能,像亚马逊和Netflix上的推荐系统,像应用在谷歌照片上的图像理解系统。”1
接下来,让我们简单分析、点评一下这些活跃在你我身边,正在改变世界的人工智能技术。
<h3>
智能助理</h3>
记得微软小冰吗?手机上最喜闻乐见的人工智能助理之一。与其他人工智能助理应用相比,小冰的语音识别能力、语音合成技术、基于大语料库的自然语言对话引擎,都有着非常独到、可圈可点的地方。据说,2016年9月17日是小冰的十八岁生日,截至这一天,小冰已经跟4200多万人进行了200多亿次对话,包括文字聊天、语音聊天、电话通话等各种形式。
图3中是我和小冰关于美国总统竞选的一段对话,有意思吗?在这样一个简单的对话语境里,小冰试图表现出不偏不倚的中立态度,而且,她在讨论严肃话题的时候,口气上居然有三四分的调侃和戏谑。
<img src="/uploads/allimg/200412/1-2004120Q14Q51.jpg" />
图3 微软小冰为代表的智能助理类应用
严格地来说,小冰的智慧程度还远远赶不上人类,更多时候,她只是在事先积累的人类对话库和互联网资料库中,查找最有可能匹配的回答。在不少特定的情形里,比如上下文较复杂的场合,小冰经常答非所问,或有意无意地顾左右而言他。但很难否认,小冰及类似的智能助理程序,已经展现出初步的与人类沟通的能力。
像小冰这样的智能助理应用有很多。苹果公司早在2011年就发布了i OS语音助理Siri;2012年,谷歌发布的Google Now将智能助理的概念带入了Android世界;2014年,亚马逊发布了基于Alexa平台,可以和用户聊音乐的智能音箱Echo;随后,2015年,百度发布了集成个人搜索助理和智能聊天功能的度秘;2016年,谷歌发布了智能聊天程序Google Allo;2017年1月,百度推出的基于自然语言对话的操作系统Duer OS则代表了国内互联网公司在建立智能助理开发与应用平台方面的自信。
<h3>
新闻推荐和新闻撰稿</h3>
用手机看热点新闻是许多人每天都要做的事。像“今日头条”这样的新闻类应用之所以火爆,主要就是因为其采用了人工智能技术,应用程序可以聪明地归纳每个人看新闻时的不同习惯、爱好,给不同用户推荐不同的新闻内容。带智能推荐功能的应用如果做得好,用户就会觉得,越经常使用,机器就越懂得自己的“心思”,一段时间后,这个应用程序就不亚于一个量身定制的新闻管家了。
而且,AI的魔力还不止于新闻推荐。你知道吗,现在,相当数量的新闻内容,根本就是由计算机上的人工智能程序自动撰写的!
2011年,一个名叫罗比·艾伦(Robbie Allen)的思科公司工程师将自己创办的一家小公司改名为Automated Insights,这个新名字大有深意——罗比·艾伦立志研发人工智能自动写作程序,而公司新名字的首字母缩写恰好就是人工智能的英文缩写——AI。
借助一套名为“作家”(Wordsmith)的人工智能技术平台,Automated Insights公司首先与美联社等新闻机构合作,用机器自动撰写新闻稿件。2013年,机器自动撰写的新闻稿件数量已达3亿篇,超过了所有主要新闻机构的稿件产出数量;2014年,Automated Insights的人工智能程序已撰写出超过10亿篇的新闻稿2。
世界三大通讯社之一的美联社于2014年宣布,将使用Automated Insights公司的技术为所有美国和加拿大上市公司撰写营收业绩报告。目前,每季度美联社使用人工智能程序自动撰写的营收报告数量接近3700篇,这个数量是同时段美联社记者和编辑手工撰写的相关报告数量的12倍3。2016年,美联社将自动新闻撰写扩展到体育领域,从美国职业棒球联盟的赛事报道入手,大幅减轻人类记者和编辑的劳动强度。
想看看机器自动撰写的新闻报道是否表达清晰,语句通畅?下面是从美联社职业棒球联盟新闻稿中节选出来的几段:
宾夕法尼亚州立学院(美联社):第十一局,一二三垒有人,一人出局的情况下,迪伦·蒂斯被触身球击中,保送上垒。这是本周三州立学院鹿角队9︰8战胜布鲁克林旋风队的比赛中的一幕。
丹尼·哈茨纳通过牺牲打获得制胜一分。击球后,他成功跑上二垒但在跑向三垒时出局。
基恩·科恩在第一局中打出双杀,使旋风队以1︰0领先。但在第一局的随后时间内,鹿角队连得5分,其中,迪伦·蒂斯的触身球就直接送两人跑回本垒。
……4
自动撰写新闻稿件的好处不言而喻,这不但可以节省记者和编辑的大量劳动,而且可以在应对突发事件时充分体现出计算机的“闪电速度”。
2014年3月17日清晨,仍在梦乡的洛杉矶市居民被轻微的地面晃动惊醒。这是一次震级不大的地震,但因为震源较浅,市民的感受比较明显。地震发生后不到三分钟,《洛杉矶时报》就在网上发布了一则有关这次地震的详细报道,报道不但提及了地震台网观测到的详细数据,还回顾了旧金山区域最近十天的地震观测情况5。
人们在新闻报道的网页上看到了《洛杉矶时报》记者的姓名,但该新闻之所以能够在如此快的时间里发出,完全要归功于可以不眠不休工作的人工智能新闻撰写程序。地震发生的瞬间,计算机就从地震台网的数据接口中获得了有关地震的所有数据,然后飞速生成英文报道全文。刚刚从睡梦中惊醒的记者一睁眼就看到了屏幕上的报道文稿,他快速审阅后用鼠标点击了“发布”按钮。一篇自动生成并由人工复核的新闻稿就这样在第一时间快速面世。
<h3>
机器视觉</h3>
人脸识别,这几乎是目前应用最广泛的一种机器视觉技术,是人工智能大家庭中的重要分支。近年来,随着深度学习技术的发展,人工智能程序对人脸识别的准确率已经超过了人类的平均水平。
很多公司都为员工发放用于出入公司的门禁卡。但在我们的创新工场,没有人佩戴门禁卡。创新工场的大门上装有一个高分辨率的摄像头,员工走近大门的过程里,与摄像头相连的计算机中安装的一套名为Face++的智能软件会实时采集人脸图像并与系统中存储的员工照片进行比对,系统认识的“熟人”可以自由通行,系统不认识的“陌生人”则会被拒之门外。
人脸识别不仅仅可以当保安、当门卫,还可以在手机上保证你的交易安全。不少手机银行在需要验证业务办理人的身份时,会打开手机的前置摄像头,要求你留下面部的实时影像,而智能人脸识别程序会在后台完成你的身份比对操作,确保手机银行程序不会被非法分子盗用。
广义上的机器视觉既包括人脸识别,也包括图像、视频中的各种物体识别、场景识别、地点识别乃至语义理解。所有这些智能算法目前都可以在普通手机应用中找到。
<img src="/uploads/allimg/200412/1-2004120Q14Q92.jpg" />
图4 用谷歌照片检索出我在2008年参加奥运火炬接力的瞬间
例如,今天主流的照片管理程序几乎都提供了自动照片分类和检索的功能。其中智能程度最高、功能最强大的非谷歌照片莫属。利用谷歌照片,我可以把我的所有照片和视频——没错,是所有照片和视频,不管是昨天拍摄的晚宴照片,还是十几年前为孩子拍摄的家庭录像——统统上传到云端,不用进行任何手工整理、分类或标注,谷歌照片会自动识别出照片中的每一个人物、动物、建筑、风景、地点,并在我需要时,快速给出正确的检索结果。
利用谷歌照片,我可以轻松找到自己在过去若干年里的每一个精彩瞬间,也可以浏览在过去一年里我都去过哪些著名景点。或者,可以简单输入任何一种动物的名字,比如“海鸥”,看看我以前是不是为海鸥拍过照片。
<img src="/uploads/allimg/200412/1-2004120Q14RV.jpg" />
图5 用谷歌照片检索出所有海鸥照片和视频
<h3>
AI艺术</h3>
2016年夏天,一款名为Prisma的手机绘画程序在大家的朋友圈里流行开来。Prisma并不是用程序凭空作画,而是根据用户指定的一张照片,将照片变成特定风格的画作。
图6中,我将一只在北京近郊拍摄到的猫咪的照片(左上角照片)交给Prisma, Prisma利用先进的人工智能算法理解照片中猫咪身上的每一个色块和每一处边缘,然后将计算机从大量经典画作中学习到的上色技法、笔触技法、干湿画法等应用到这张真实的照片上。
<img src="/uploads/allimg/200412/1-2004120Q149222.jpg" />
图6 Prisma在一只猫的照片基础上完成创作的结果
我们可以把整个过程看成一个学习绘画的孩子对着一张猫咪照片进行的创作训练。这个名叫Prisma的孩子曾受过严格的美术教育,临摹过中西方大量经典名画,可以熟练使用各种油画、水彩画乃至漫画技法进行创作。以这张猫咪照片为基础,Prisma在理解照片内容之后,可以用人工智能的“画笔”艺术性地“创作”出多达二十几种不同画风的作品。
这种画风迁移功能不仅仅可以帮助普通人进行“艺术创作”,还可以让爱漂亮、爱自拍的女生把自己装扮成通常只在动漫或梦境中才能见到的美少女形象。2017年1月,美图秀秀推出的手绘自拍功能一夜“刷屏”,从中国到欧美再到日韩,上亿用户包括无数女明星在内,纷纷用手绘自拍功能将自己变成二次元世界里超萌、超可爱的漫画形象。英国《每日电讯报》报道说:“如果你突然在社交网络上看到到处都是迷人的自拍,那么你应该感谢这个来自中国的应用——美图秀秀。”6
<img src="/uploads/allimg/200412/1-2004120Q14a31.jpg" />
图7 使用美图秀秀的手绘自拍功能,连我也可以秒变小鲜肉
不只女生喜欢这个功能,其实,男生也可以用这个功能将自己美化成二次元世界里最新鲜的小鲜肉。连我这个“大叔”在手绘自拍功能的强大艺术表现力之下,也被P成了粉嫩可爱的有趣形象。
<h3>
新一代搜索引擎</h3>
搜索引擎里也有人工智能?
在很多人眼中,搜索引擎是诞生于20世纪的一项互联网核心技术。谷歌创始人拉里·佩奇(Larry Page)和谢尔盖·布林(Sergey Brin)于1996年提出的Page Rank算法大幅提升了搜索引擎结果排序的准确性,但二十余年过去了,搜索引擎的技术、算法难道不是已经非常成熟了吗?这里还有人工智能发挥作用的空间吗?
2016年2月的一天,谷歌高级副总裁、46岁的阿米特·辛格尔(Amit Singhal)宣布离开谷歌搜索引擎核心团队负责人的位置,接替他领导世界上最大搜索引擎的高级副总裁,是曾主管谷歌知识图谱和机器学习两大核心研发团队的约翰·贾南德雷亚(John Giannandrea)。这起人事变动无论对谷歌内部还是对外界来说都意味深长,当时的许多媒体将此次人事更迭解读为谷歌搜索全面由传统算法向人工智能算法转变的信号7。当然,直到2017年年初公众才知晓,阿米特·辛格尔离职的更直接原因是他卷入了一桩性骚扰案8。但当时也许是被迫而为的高管更迭,却从实际结果上体现出了谷歌搜索技术方向的深刻变革。
阿米特·辛格尔是谷歌搜索引擎早期核心算法,特别是网页排序算法的最重要贡献者。简单地说,最传统的网页排序算法是找出所有影响网页结果排序的因子,然后根据每个因子对结果排序的重要程度,用一个人为定义的、十分复杂的数学公式将所有因子串联在一起,计算出每个特定网页在最终结果页面中的排名位置。
约翰·贾南德雷亚(在谷歌工作时,我们都亲切地用姓名首字母称呼他为JG)曾主管的知识图谱和机器学习两大研发团队则代表了谷歌在人工智能领域的未来。其实,谷歌很早就开始用机器学习技术帮助搜索引擎完成结果排序。这一思路和传统算法不同。在机器学习的方向里,计算网页排序的数学模型及模型中的每一个参数不完全是由人预先定义的,而是由计算机在大数据的基础上,通过复杂的迭代过程自动学习得到的。影响结果排序的每个因子(在机器学习领域,每个影响因子也被称为“特征”)到底有多重要,或者如何参与最终的排名计算,主要由人工智能算法通过自我学习来确定。从2011年起,随着深度学习技术的复兴和谷歌大脑(Google Brain)项目的成功建设,谷歌搜索引擎使用的网页排序算法越来越依赖于深度学习技术,网页结果的相关性和准确度也由此得到了大幅提高。可以毫不夸张地说,到约翰·贾南德雷亚执掌谷歌搜索团队的时候,谷歌搜索已经是一个绝大部分由人工智能技术支撑的新一代搜索引擎了。
<img src="/uploads/allimg/200412/1-2004120Q149347.jpg" />
图8 向百度提问并直接得到答案
结果排名还只是人工智能技术在搜索引擎中应用的冰山一角。打开谷歌或类似的主流搜索引擎,人工智能的魔力无处不在。今天,我们可以直接在谷歌向搜索引擎提出问题,搜索引擎会聪明地给出许多知识性问题的答案。
<img src="/uploads/allimg/200412/1-2004120Q14aB.jpg" />
图9 向谷歌提问并直接得到答案
例如,在图8中,我们可以直接向百度提问“东野圭吾多大了”,百度在结果页的最显著位置直接给出“58周岁”(2016年)的正确答案。我们甚至可以向谷歌提问:“在《哈利·波特》的系列故事里,到底是谁杀了令人尊敬的校长邓布利多?”谷歌不但直接给出杀害邓布利多的凶手名字,还显示出相关的电影剧照、故事情节、维基百科链接等。
近年来,利用人工智能技术在语音识别、自然语言理解、知识图谱、个性化推荐、网页排序等领域的长足进步,谷歌、百度等主流搜索引擎正从单纯的网页搜索和网页导航工具,转变成为世界上最大的知识引擎和个人助理——毫无疑问,人工智能技术让搜索引擎变得更聪明了。
<h3>
机器翻译</h3>
打破语言界限,用自动翻译工具帮助人类进行跨民族、跨语种、跨文化交流,这是人类自古以来就一直追寻的伟大梦想。1799年发现的罗塞塔石碑(Rosetta Stone)更是将这种交流推动到了跨时空的层面。借助罗塞塔石碑和语言学家的智慧,我们能够读懂数千年前的古埃及文字,了解古埃及人的所为、所思、所述,这真是一件无比奇妙的事。