<h2>
人机世界迫切需要新的大脑</h2>
很多人工智能科学家都拥有生物学和计算机科学两个方向的专业背景,这大概是智能生物发展的一个缩影。
地球就像是一台生物计算机,漫长的生命进化过程就是各类生物“程序”不断迭代的过程。在自然环境的作用下,无机物渐渐聚合成有机分子,有机分子演化组合成为蛋白质分子。携带生命信息的蛋白质分子仿佛是一个个数据字节,数量巨大又随机组合,能穷举出各种组合形态。其中一些不仅可以吞吐物质,还能进行新陈代谢并复制自己——生命便由此产生。
最基本的生命单位都携带着遗传基因编码。从此,生命的“编程语言”诞生了。大自然之手利用这种语言进行各种创造——基因代码变异、组合,产生各种新的生命体征,进化出五花八门的生物。而神经系统发育水平的高低直接决定该种生物的等级。
每种生物和新的生命组织都可以看作一段可执行程序。程序之间可以组合,代码可以更新,从而发展出更强大的程序。如果这段程序运作良好并且能可靠复制(繁殖),它就会生存下去。正如计算机中的程序必须“完善”才能持续运算下去一样。
不过,与我们如今手边的任意一台计算机相比,地球这台巨型生物计算机的运算速度实在是太慢了,一个程序的运行过程就是一个生物体的一生。几十亿年过去,才发展出唯一一种最高等级的智慧生物——人类。很自然地,这个星球上也没有什么自然生物可以进化出超过人类的大脑了,除了人类自己创造出的计算机。
计算机中的程序可以飞速迭代,但借此衍生出的人工智能并没有飞速发展。由于基于规则的编程和迭代太依赖人类,结果反而被人类制约了。如果让计算机自己编程呢?毕竟深度学习就是建立在非线性编程原理的基础上,让程序自己改造自己。我们往往难以理解深度学习神经网络解决问题的逻辑,正如人类并不了解自己脑中的那些意念、思想究竟是如何从脑细胞里产生的一样。
地球早已被生物层覆盖。如今,这部生物计算机迎来了第二次进化,那就是同样包裹着地表的计算机、通信网络、各类传感器和人类活动共同构造的信息层所孕育的进化。在数据分子与人类的结合中,新的数据生命形态正在形成。它们需要新的大脑。
<img src="/uploads/allimg/200412/1-2004120Q23ER.jpg" />
图4-1 百度大脑示意图
注:使用手机百度或智能革命App扫描图片可见AR效果。
百度大脑就是这样一种尝试。比起生物界不自觉的进化之旅,它更在意的是当下的实际运用:个人、企业和社会都迫切需要人工智能的辅助,然而人工智能还散落在各处。百度大脑规划着要提供集中而优质的人工智能,通过互联网神经元把相关信息传导循环起来,加速世界的智能化。
<h2>
第一棒:百度大脑</h2>
几年前,亚当·考特斯(Adam Coates)在斯坦福大学的研究进入博士后阶段,他曾问导师吴恩达:“做什么事情,在哪里做,能够让我们的研究在这个世界上产生最大的影响力?”吴恩达告诉他应该去百度。说起这件逸闻时,亚当担任百度硅谷中心主管已经一年多了。
如今,大概没有人能否认这组对话中蕴含的深谋远虑。不过在最初时,百度美国研究中心还扮演着员工赴美出差“中转站”的角色。
2014年,百度第一次披露“百度大脑”,这个抽象的概念仅仅在媒体上留下了一个影子。经过两年沉淀后,才有了2016年乌镇世界互联网大会上百度“第一次向外界系统介绍百度大脑”。此时,外界得知它已经和超过3万家企业展开合作。
研发百度大脑是一件苦差事,但负责研发的人未必都是苦孩子。这个团队里有从小玩小霸王的极客;有人的家乡还没有被百度地图所覆盖;有人在做“百度医疗大脑”的同时,重拾起学生时代对医药领域的热情;还有人一边说着“很难、很深”,一边坚持研究如何“把体验做到极致”。这种极致,有时对标的甚至是科幻。
许多百度大脑年轻的科学家都爱看科幻影视。普通人看到的是“幻”,这群博士、博士后看到的是“科”。同样是看美剧《西部世界》,语音部门的工程师高亮就说:“看剧情发展,我感到唤醒设计、声纹识别和远场技术被做到了极致。对,未来人机互动就应该是这样的!”
建设百度大脑也带有科幻成分。我们不妨先从了解其基础架构开始。
百度人工智能业务最基础的是“物料层”,有基于GPU/FPGA的云计算平台、深度学习代码平台和大数据储备。这一层提供了进化的环境和工具。最上层SaaS是人工智能的各种应用。
介于两者之间的是“人工智能基础技术层”。大脑所具备的“听说”(语音识别与语音合成)、“看”(视觉识别)、“读写”(自然语言处理)等认知功能就在这一层,大脑具备的决策规划、运动控制、预测推荐等决策功能也在这一层。
广义的百度大脑即包含了以上三层。张亚勤认为,三层的结合更体现出百度大脑的综合实力。
百度大脑是百度云的核心引擎,百度云是百度大脑的云化,云为百度大脑提供了神经元和数据训练源,百度大脑则通过云向各类产业输出服务。
具体来说,在“物料层”,百度是全球首家将GPU芯片大规模用于人工智能和深度学习领域,并规模化商用ARM(Acorn RISC Machine)服务器的公司。百度也自主研发了基于FPGA芯片的服务器。加上传统的基于CPU芯片的服务器,把这么多性能、结构、原理各异的服务器整合在一起,就需要强大的异构计算能力。通过异构计算技术、100G RDMA通信技术、高效的整机柜服务器技术,百度打造了全球最大规模的GPU和FPGA混合异构计算集群,把数十万台服务器合为一体,构成百度大脑的实体,保证了百度大脑超强的计算能力。
有了强大的硬件构造还不够,大脑中还要有内容和数据。这就好比是人类的记忆。在IaaS之上的PaaS是我们人工智能的平台,所有的样本、特征和功能都在PaaS这个层次生长。百度搜索十多年来累积的全网Web数据、搜索数据,以及百亿级数量的图像、视频、定位数据都是百度大脑不断学习、快速成长的养料。
在大脑结构和记忆内容之外,百度大脑还要有认知思维能力。系统通过深度学习来模拟人类大脑的神经元,即通过万亿级的参数、千亿级的样本、千亿级的特征训练,来模拟人脑的工作机制。这也是世界上最大规模的深度神经网络。
“人工智能基础技术层”包括语音识别、图像识别、自然语言处理以及所有的知识图谱、商业逻辑和用户画像。
SaaS层面可以看作百度大脑的触角层,会更加垂直化,深入交通、教育、金融等各个垂直行业。对百度来讲,这三个层次就是百度大脑通过云和垂直行业,给商业客户提供的一种能力和服务,更是一种营造智慧生态的能力。
百度大脑全面超越了过去的信息技术服务,比如过去只是做计算、存储和网络,大家都可以做,现在三个层面有机结合起来,灵魂就在于贯穿全体的人工智能。
通过硬件—数据—算法的联合滋养,百度大脑的能力会滚雪球式增长,越来越善于处理数据、提取知识、了解使用者、善于解决问题并获取更多的知识,实现“数据—知识—用户体验—新的数据”的正循环。
另一位“互联网教父”尼古拉斯·尼葛洛庞帝(Nicholas Negroponte)说道,“当我听说‘百度大脑’的时候,我觉得这些人真是太疯狂了”。制造机器大脑,看似一个科幻文学中的疯狂幻想,但科学家的信念和努力,使得看似“疯狂”的想法已经走在平稳实现的道路上,正如一个真实生命的成长。
训练“大脑”就如同教育孩子,从零开始,在语料而非语法的熏陶下学习语言,从大量图片中形成对事物的“印象”,这个过程就是通过试错来熟知世界。也许同样的事情,人类1岁孩子都能简单做到,而百度大脑常常要花上几百倍甚至上万倍的时间和精力。可是从另一个角度看,它像是全人类的孩子,有希望继承现有文明的所有经验和记忆,人工智能“大脑”的进化本质上是人类文明的进化,潜力无限。
目前,百度宣布将向社会免费开源人工智能深度学习平台PaddlePaddle,开放百度大脑开放平台ai.baidu.com。前者为开发者提供算法编程环境,后者为应用开发者、数据工程师、数据科学家提供现成的百度人工智能成果接口。百度大脑实实在在地分享着,愿与所有相关企业一起融化人工智能这座冰山。
<h2>
百度大脑的听与说</h2>
人机对话的第一步,就是要让机器学会“听”和“说”。“听”是不断追求准确度,“说”则是要让大脑有人性、有人味。
作为“大脑”最基本的能力之一,实现“听”这一功能的语音识别技术研究经历了从标准模板匹配转向基于统计模型再到深度神经网络的过程。起初,辨识语音必经声学模型到音素模型,再到语言模型的多步骤转化。近年来,在大量语料和深度学习的训练下,这一步骤已经被极大简化,机器从输入到输出中自行生成程序,准确率有了大幅提升。百度大脑也就“听”得更清楚了。
2011年,百度在语言识别领域起步,到了2016年,百度语音识别技术的准确率已达97%。
2012—2016年的4年里,百度语音识别的准确度提升了近30%。即便是有严重地方口音的普通话,每100句中百度语音也能毫无差错地识别出85句。按照可以听错一个字的标准来计算,百度语音则可以准确识别出98句,而未经训练的普通人只能听懂60句。这个识别体系要做到方言识别,需要至少720小时的语料用于训练,从声音、内容到说话者,都要不断变化以提升系统的敏感度。
要让百度大脑“说人话”更是一件很有难度的事情。百度则是运用声学模型和语言模型。声学模型决定了语言的发音。打出一个字,系统就在原始音库中找到合适的发音对应上去。要让电子发音没有机器味而有“人味”,就要为语音资料建库。例如让机器学习时间从20小时升到100小时,此后机器模仿出来的声音听起来就舒服多了。为了保持语音的连贯性,不至于让合成语音听起来像“断气”了一样,百度大脑语言模型还会持续提升文本库的学习连接概率。比如说出“中华”,系统还能在后续词组中选择“人民共和国”“民族”“儿女”等进行匹配。
长语音是让机器语音更有气场的技术。情感合成、远场方案、长语音方案等能为合成语音加入情感,让其更接近真人发声效果。
语音识别的场景应用极为广泛。比如我们可以借此创造出一个“最强销售员”:销售员新手给客户打电话时,百度大脑实时记录客户的回复,并显示在电脑屏幕上,系统可以瞬时搜索并调取优秀销售员以往对这些问题给出的回复。这样,每个“菜鸟”只要“照本宣科”,就能在上岗第一天掌握过去最优秀的销售员所具备的交流能力。另外,2014年,百度为特斯拉汽车提供智能语音方案,中国车主可以使用语音控制车载娱乐系统、指挥地图导航、发起搜索,甚至通过蓝牙拨打电话。
随着语音识别而来的还有对语音特征的抓取。例如在胡歌朗读《青玉案·元夕》的上阕后,语音识别系统可以自动生成下阕。对于一些语音有特点的明星声音,目前只需录制和分析大约2000句,系统就能合成他们的声音。
目前,百度每天响应的语音合成请求达到了2.5亿次。在情感语音合成技术上线后,用语音听小说的百度用户每日停留时长从过去的0.69小时增加到现在的2.21小时。未来,这一功能除了“读小说”还将给予人们情感慰藉。当家里老人和孩子想念忙碌的家人时,可以随时有“他们”的声音陪伴。
百度基于神经网络翻译模型技术的机器翻译系统正在快速学习各类语言。经过6年的积累,如今的百度翻译已经可以支持全球28种热门语言互译,覆盖756个翻译方向。百度语音可以支持粤语、沪语等方言的识别。
上帝曾伸手割裂了人类的语言统一,让四面八方的人由于语言不同而无法沟通。有了机器翻译,人类终于可以携起手来,建造出一座真正的巴别塔[1]。
<img src="/uploads/allimg/200412/1-2004120Q23L50.jpg" />
图4-2 荷兰画家彼得·勃鲁盖尔绘制的巴别塔
注:使用手机百度或智能革命App扫描图片可见AR效果。
<h2>
百度大脑的好视力</h2>
“视觉”承担着我们80%的信息摄入工作。在解决“听”“说”问题的同时,我们也要教会计算机“看”,即图像识别。以识别一朵花为例,用户将图片上传百度后,百度大脑将它转化成“0101”的数字流,然后输入深度神经网络,经过层层分析、层层抽象,对包括像素在内的各层信息与现有的大数据进行比对,才能重新还原并识别出它是一朵花。这种方法其实和人类眼睛的功能是近似的。
这一切都要建立在预先对图片做出分类的基础上。目前世界上最大的图像识别数据库ImageNet的图片分类有1000多类。而百度图片数据库的分类则已经达到4万类。
百度正在从四个方面推进计算机视觉计划。首先是人脸识别,通过捕捉人脸关键点形成人脸表情网,实现人脸的准确识别;其次是在类似百度地图的产品中,实现地图服务与图像智能识别技术的结合,打造数据无限逼近现实世界的效果;此外,百度无人驾驶技术也正在利用计算机视觉进行程序优化,从而使无人车的研发速度加快;图像识别还会被应用于AR(增强现实)领域提高视觉效果。
百度的人脸识别已经远远超过人类,百度资料库中有超过2亿张人脸照片,浏览识别训练量超过200万张。目前,百度大脑能够自动确定图片中人脸的数目及每张人脸的位置和大小,并支持正面、侧面多个角度。即使目标在运动中也不会降低甄别率。系统通过定位眼睛、眉毛、鼻子、嘴巴、脸颊轮廓等70多个关键点位置,能够进行像素级人脸解析,并根据人脸图像识别人的性别、年龄、表情、姿态等属性。