图源:图虫创意
2019年1月15日晚,在知识分子、赛先生和中关村海淀园管委会联合举办的“科学精神中国行”新年专场上,AWS中国人工智能研究院首任院长、上海纽约大学计算机科学教授张峥发表了“AI离人脑还有多远”的主题演讲。
编者按:
1919年1月15日,北大教授陈独秀用“赛先生”指称科学。百年纪念日,北大教授饶毅、谢宇,清华教授白重恩、吴国盛,上海纽约大学教授张峥同台讨论“科技对未来的影响”。今天我们刊发张峥教授的演讲全文。
演讲 | 张 峥(上海纽约大学计算机科学教授)
整理 | 邸利会
我想讨论的一个题目,是看一看人工智能跟人脑的鸿沟在什么地方。
说到人工智能和人的智能之间的关系,大家也许听说过“类脑计算”这个词,但大家可能不清楚它是什么。据说,领导们在讨论中国脑计划时有问起过,什么叫“类脑计算”,结果都答不上来。一个将军特别聪明,他说“类脑计算”就是下一代的人工智能――特别有智慧,但其实还是没有回答这个问题。
我在工作中非常喜欢跟脑科学家一起合作。我发觉两个学科之间的鸿沟相当大,经常会发生鸡同鸭讲的问题――我们的语言不一样、任务不一样、方法论也不一样。有一个笑话说,一个神经元是生物学的问题,两个神经元就是神经科学的问题,而人工智能一言不和就成千上百万的神经元,从尺度上说就非常不同。
先来看人工智能。现在AI技术处在井喷状态,给大家举几个我觉得很不错的结果。2017年底,AlphaZero从零开始学习打败了人类围棋、象棋和日本的一个游戏;一年之后,同样的团队调整枪口,做了蛋白质结构的预测;一个多星期前,在《自然?医学》期刊里大概有8篇做数字医疗的文章,好几篇讲人工智能在健康领域的可能应用,这些都是非常有潜力、非常好的结果。
人工智能的服务对象非常广,其中科普最成功的显然就是AlphaGo下围棋这个事,路人皆知。而人工智能也正在进入人们的生活当中,比如智能音箱。亚马逊花了几年时间秘密研制,到今天已经成了红海。我原来住酒店时经常头疼的是一大堆开关,不知道哪个开关管哪个灯。上次我去一个酒店,一个开关都没有,只有一个音箱,我不知道是Ta哄我还是我哄Ta,花好几分钟我才说服Ta把窗帘关上。显然是因为我太老了,不习惯新东西。
现在人工智能的背后有一个深度学习的方法在起作用。我就先简单说一些它是什么。
深度学习到底是什么?
第一个概念大家高中数学都学过:函数。深度网络本质上就是一个函数,只是这个函数带参数。深度网络工作时产生一堆数值,是概率。比如,我们做图形识别,识别一千类物品,网络输出就是一千类的概率分布,是一个一千维的向量。最后要判断是哪一个,就挑一个最高概率的作为输出。
输入是什么?是特别高维的向量。这点大家可能不清楚,输入是来自现实生活、三维世界的一张照片,那怎么可能是几千维的向量呢。原因在于,假如说一张图片长和宽都有一千个像素,那就是一个一百万个点的矩阵,然后还有红绿蓝三个颜色频道,所以总计是三百万的、很大的向量。不管我们人是怎么认识这个世界的,计算机的模型看到的就是一个维数很大的向量,假设图片更清晰的话,尺寸就更大。所以,这个函数,也就是深度网络要做的事情就是把高维向量映射到相对来说低维的向量。
那我们怎么训练这个网络?还是一样,给它图片,它给输出,只是我们要调整参数。网络一开始肯定是乱的,明明给猫的图片,它输出的类别可能是狗,这个网络就有错误了,就需要调整参数。
这就引入第二个概念。大家要是熟悉炒股,知道诀窍在于低开高走,深度网络或者机器学习的目标跟炒股是反着的,要高开低走。高和低,就是错误程度的衡量,训练模型就是向错误减少的方向慢慢调整,减少错误。可以把错误的曲面直观地想象成一个起起伏伏的山脉。实际上,非常大的模型的错误曲面高高低低,非常复杂。如果训练数据少,这个曲面就非常不完整,相当粗糙,找不到最低点,或者陷入一个局部最小。这就是为什么大数据有用,它可以使得表面更平滑一点。
讲到这里,咱们知道了两个概念,第一个是函数,第二个概念就是反炒股。
第三个很关键:训练的标签从哪里来。一张图片究竟是猫还是狗,不能搞混。前一段有一个新闻,在县城里为AI打工的人,这叫数据标注工作者。比如训练自动驾驶的模型,要把路上的行人框出来,这就是标注。如果5、6秒标一个,一个小时框三四百个,标框一天两三千个,大概七八十块钱,这个就是现在的所谓人工智能这个新的生态环境开出的新职业。
特别有趣的一点是,这些标注工作者有个非常朴素的总结,说人工智能其实就是我们教机器怎么来学习,是我们教会了它。
在一定程度上,这没有错。但打标签是成本非常高的一件事。我们学界做的一部分工作就是想把这个成本降下来,就是说标签不用那么准确,或者少标一点。如果我们成功了,也许这个新职业又消失了。
但是有一类人工智能任务其实不需要人工来打标签,比如围棋。
围棋已经有两千多年的时间,大概二十多年前,宇航员把围棋带到太空里去了,差不多那时候深蓝刚刚胜出人类。人们普遍认为,下围棋计算机不可能战胜人类,因为围棋变化的数目超过了宇宙的原子总数,所以带到外太空去,向外星文明宣示,不要来哦,我们有很高级的文明,比如围棋。
人工智能在下围棋上已经远超人类顶尖棋手。
剩下的事情我想大家都知道,从2014年AlphaGo登场,到2017年完胜,胜负的转变特别快,人类完败,没有争议――昨天是学生,今天变成老师,昨天是孙子,今天就变成爷爷了,计算机把最好的人类棋手,打得满地找牙。
为什么计算机可以学的那么快?就是因为在这个任务上,标注是零成本。计算机下一盘围棋,一眨眼下几千盘。现在玩游戏,我听说一个机器玩一天大概是一个人玩一百还是两百年的量。如果有一类工作,零成本,本身又是有结构的,机器可以做得非常好。当然并不是说这个事情容易,只是说围棋比赛和其他机器学习的任务类似,因为下完之后有输赢,这个输赢就告诉我们有误差,就可以指导我们调整模型参数。当然,计算机下围棋里面还是有相当有深度的研究成果,非常聪明的算法,这里暂时略下不提。
到AlphaZero的时候,研究者就不再需要人类棋手的棋谱,计算机自己学,自己下,学完了就把你的牙打得不知道哪儿去了。
人工智能的其它成绩
人工智能还可以做很多其它事。既然可以分类,就可以指导下一步棋子落在哪,也可以指导下一笔画在哪,比如生成笔迹。这一类工作叫做生成模型,2013年的工作已经可以产生几可乱真的笔迹,到了2017年,积累了很多人的努力,机器可以生成人脸图片。这本质上是拿一堆真的人脸的图片,让机器来模拟,然后慢慢学出来规律,不光可以自由地生成人脸图片,还可以按照组合要求合成某一个脸。
也许有人觉得AI不能做艺术创作。看几年前2015年的DeepDream,还做得很差,比如这个模型生成的图片,因为模型的前身是识别物体,看了很多狗狗猫猫,合成一个图片的时候里面就有很多猫狗的影子,看起来挺恶心。
人工智能的艺术创作也已经做到了以假乱真的地步。
同一年的另一类工作:风格迁移,拿一张照片按照某个艺术家的风格迁移过去,就生成了这样的作品。到了2017年的一个工作,把从16世纪开始的大概25种画派照片收集起来让机器学习。学习的目标是既要像某一类但是又不能太像,在这样的压力下,模型生成了的图片在网上盲投时过了图灵测试,就是说大家认为这些图片是艺术家画的。艺术创作的创造性本身到底怎么定义,也变得相当的模糊。
人工智能现在之所以井喷,因为到了一个时间点能把很多学科揉在一起,比如AlphaGo在围棋背后的所谓强化学习,其概念发端于一百多年前的心理学。其成功包括很多学科的支撑,比如脑科学、计算机科学。其中有很多无形推手,作用并不直接,比如互联网、数码技术――假如没有互联网、数码相机就没办法收集和标注数据。
还有一个因素是很多商业应用。有很多看得见摸得着,像自动驾驶、人脸识别、机器翻译等等。但是我觉得更大应用是隐藏在幕后,比如在车间里、流水线上,也就是说工业4.0。我自己认为这方面的应用要打开才是好事情,才可以把生产效率提上去。
让机器的脑有结构
讲了那么多还没有讲到关键点:深度模型作为一个函数,哪部分是“脑”,为什么?
在这一点上,我跟不少神经科学家有分歧,有的神经科学家觉得神经元是最关键,人工智能的神经元应该跟脑一样,需要用脉冲信号;也有的说优化的方法必须和人脑的学习方式一致。
我觉得这些都不是本质,更关键的是函数的形式是什么,或者说网络的高层结构式是什么。
给大家举一些例子,有很多计算机学家做的工作是架构师,就是设计不同网络的结构,底层是神经元,但是可以分成不同的模块,不同的网络的架构会不一样。就像人居住的环境,地上打一个草席、到酒店、住高楼,虽然都是睡,但结构不一样,这个结构最关键。我觉得是这个结构本身跟人脑之间的关系要搞清楚。
可假如我们问脑科学家,比如说一句话,哪些脑区是联动的,之间的逻辑和先后次序是什么,计算过程是什么,他们是不是很清楚呢?在上海我主持一个项目,自然语言处理在脑科学和人工智能之间的联合研究项目。启动调研的时候,我问,比如说看到桌子上有个苹果,那么说出这句话,人脑是如何做到的,我以为他们(脑科学家)一小时之后就能告诉我,结果花了一天给了我一个草案,其中有很多的猜测。
我没有任何贬低脑科学的意思,只是说脑科学也在探索,还有很多未知领域,既然有那么多未知,我们怎么和人类智能比较呢?挺困难。但是我们可以猜,我们可以从其他角度来看这些问题。
比如现在机器翻译相对成熟,但结果还不好,你可以似懂非懂地猜。那么,我们人类是怎么犯错的呢?我们人类犯的错挺有趣,关键在于人类犯错和机器学习犯的错不一样。两个系统犯错一样不见得他们背后的工作原理是一样的,但是假如说犯错不一样,那么原理一定不一样。这可以启发我们怎么设计这个机器。
再比如说诗歌。我以前非常喜欢,现在没有时间读了,现在有很多写诗的软件,大家也许试过。但举一些我们出色的诗人写的诗歌,比如里尔克的这首“羚羊”,里面有一句写道:To see you: tensed, as if each leg were a gun loaded with leaps. 这是描写羚羊跳跃的敏捷,他说羚羊的腿像一把枪,装的不是子弹,是跳跃,来形容动作之快,非常形象。
我有一个上海的诗人朋友王小龙,他的这首《爱的十四行》情诗,说“我要在海边盖一座房子,亲爱的,一座盐粒堆成的房子,我要的就是通体纯蓝……” “通体纯蓝”这四个字大家琢磨一下,非常有趣:盐会想到提炼,用纯这个字非常对,说海,我们会想象到蓝,这句诗让人觉得想象非常自然。读诗读多了,你会发现意向的跳跃和连接非常有趣,显然我们现在机器学习出来的诗句没有这个能力。
我们反过来看一看,机器学习里面的结构是什么样的。比如机器学习的翻译模型,就是一串词进去,一串词出去。大家知道,在图灵测试之后有一个思想实验叫“中国屋”,就是讨论机器到底是不是理解句子。机器把一个词拿过来,字典翻一翻,找一个词吐出去,叫“中国屋”。“中国屋”,或者结构是“中国屋”的模型,是不拥有所谓理解的能力的。
我们起码要做到“中国房”。
我曾打趣说,三、四十年前,中国屋和中国房是一回事,因为大家都挺穷。但是现在“中国房”走进去有各种各样的房间,承载不同的功能,有卧室、厨房、卫生间等等,有层次、有结构。如果我们的模型是一个扁平的结构,那就是中国屋。我们起码要做成有层次结构、有功能分块的模型,只有那样,才有希望跟人脑去进行对比。
在这里,我们也可以从其他地方得到一些启发。有一个印度小伙子,他做了一件非常了不起的工作。他发现自闭症的孩子在说话的时候有些词吐不出来,比较抽象的词,比如动词,经常说不出来,所以不成句。他观察到,自闭症孩子妈妈引导孩子说话,来理解孩子的意图,是用提问来引导的:比如说吃饭,吃什么?和谁一起吃?什么时候吃?他就做了这么一个游戏,训练自闭症的孩子来产生句子,每个时间点都是可以正生长的图,这就很像人来生长句子的过程了。比如“他来我也来”这种带有主从关系的套句,可以有不同的次序来生成。人说一句话,有各种丰富表达的可能性,这也是语言的魅力,我们现在人工智能远远没有达到这个地步。
连接两个“智能”的桥梁
我觉得连接人脑和人工智能的桥梁是有可能的。但是要这么看,就是脑科学底层有一些做基因、做神经元、神经电路这些工作,对理解人脑、保护脑非常有作用,但和人工智能的关系并不直接,也不一定对人工智能有特别大的启发。因为底层的可以用神经元做,也可以用其它器件做。但是,还有一些是更高层的、功能性的、系统层的工作,尤其神经心理学、神经哲学这些新的学科,对人工智能的发展至关重要。
同样的,人工智能也可以分成两种,一种存在于人机交互的界面。一张图片包含什么信息,一句话在说什么,机器不能瞎猜,机器理解的过程至少跟人脑的认知计算的过程保持一致。
也就是说,在人机交互的这些功能上,比如理解人的语言、理解人的知识、理解图片、以及各种交互功能,我觉得我们没有选择,我们必须要去理解大脑认知计算的过程,用它作为一个指导来做我们人工智能的东西。如果这个过程不一样,那么即使看上去一样,但实质不一样,犯错都不一样,就提不上真正的,能和人紧密接触的智能来。这是非常基础也非常重要的工作。
人工智能的另外一部分我索性叫做“累脑”,为什么呢?
因为在人类那么长的进化过程当中,大部分的环境是相对简单的。大脑还没有足够的时间和压力来发育出比较成熟的功能来应对一些比较复杂的任务。比如概率、统计等等,大家学习的时候会普遍觉得比较累,比较“抽象”。这些问题,本质上是数学问题、搜索问题,就像下围棋,这些问题,人类对付起来天生比较吃力。
对这一类型的人工智能,我觉得我们应该放松,不必要拘泥于大脑的结构,我们应该目送AI远去,希望Ta在一马平川上飞奔,做得越来越好。把我们本来也不擅长的任务交给人工智能,让它发力,这样反而可以解放我们人类。
本页刊发内容未经书面许可禁止转载及使用