自大约10年前开始崛起以来,人工智能背后的神经网络技术从数据中学习和识别模式的能力越来越强,从电子邮件到药物发现,这种能力已经改变了一切;但这种能力也带来了一个神秘的警告:现代深度学习网络之所以能够成功地自学驾驶汽车和发现保险欺诈正正是因为其自身的复杂性,但这种复杂性也使得它们的内部工作复杂得几乎不可能被理解(即使是人工智能专家)。如果训练一个人工神经网络来识别患者患上肝癌与精神分裂症的风险(2015年在纽约西奈山医院就有一个这样的人工智能,“Deep Patient”),我们没有办法分辨这个神经网络究竟在关注着哪些数据,这种“知识”牵涉到许多层人工神经元,每一层都有成百上千的神经连接。
随着越来越多的行业试图用人工智能来实现自动化或增强决策能力,这个所谓的“黑匣子”问题看起来更像是一个根本性缺陷,而不像是一个技术怪癖。DARPA的“XAI”项目(“可解释的AI,explainable AI”缩写)正在积极研究这个问题,人工智能的可解释性已经从机器学习研究的边缘转移到了研究的中心。Kim说:“人工智能正处于非常关键的时刻,人类在试图决定这项技术对我们是否有益,如果我们不解决这个可解释性问题,我认为我们不会推进这项技术,我们可能会放弃人工智能。”
Kim和她在Google Brain的同事最近开发了一个名为“概念激活向量测试”(TCAV)的系统,她将其描述为“人类的翻译”,它允许用户询问一个黑匣子AI一个特定的、高水平的概念在其推理中发挥了多大作用。例如,如果一个机器学习系统被训练去识别图像中的斑马,那么一个人就可以利用TCAV系统来确定机器学习系统在做决定时,“条纹”这个概念在机器学习系统中的权重有多少。
TCAV最初是在训练识别图像的机器学习模型上进行测试的,但它也适用于以文本和某些数据可视化训练(脑电图波形)的机器学习模型。“它既通用又简单——你可以把它插入许多不同的模型中,”Kim说。
Kim接受了采访,探讨了可解释性的含义、用途以及重要性。以下是经过编辑的采访内容。
问:您的职业生涯专注于机器学习的“可解释性”,但是这个术语到底是什么意思呢?
可解释性有两个分支。一个分支是科学的可解释性:如果你把神经网络作为研究对象,那么你就可以进行科学实验来真正理解模型血淋淋的细节,它是如何反应的,以及诸如此类的事情。
可解释性的第二个分支,也是我一直关注的,是负责任的人工智能的可解释性。你不需要完全理解人工智能模型,但最起码你要理解得足够多去安全地使用这个工具,这就是我们的目标。
问:但如果您并不完全了解一个系统的工作原理,那您怎么能对它有信心呢?
我来打个比方,假设我后院有一棵树,我想把它砍倒,我可能会用链锯来完成这项工作,但现在我不完全明白链锯的工作原理,不过说明书上说:“这些是你需要小心的事项,以免割伤你的手指。”所以,有了这本说明书,我宁愿用电锯也不愿用手锯,因为手锯虽然更容易理解,但用手锯砍一棵树会让我花上5个小时的时间。”
问:您知道什么是“切割”,即使您并不完全知道这个机制如何实现切割。
是的。可解释性第二个分支的目标是:我们对一个工具的理解是否能到达一个仅仅能让我们安全使用这个工具的程度?我们可以通过确认有用的人类知识在工具中的反映来建立这种理解。
问:“反映人类知识”如何能让类似黑匣子般的人工智能更容易理解?
这里再举一个例子,如果医生使用机器学习模型来进行癌症诊断,医生会想知道这个模型并没有在数据中提取我们不想注意到的随机相关性。确保这一点的一种方法是确认机器学习模型正在做医生会做的事情,也就是说,医生自身的诊断知识会反映在模型中。
因此,如果医生正在观察细胞标本来诊断癌症,他们可能会在标本中寻找一种叫做“融合腺体”的东西。他们可能还会考虑患者的年龄,以及患者过去是否接受过化疗,这些都是医生在诊断癌症时会关心的因素或概念,如果我们能证明机器学习模型也在关注这些因素,这个模型就变得更容易理解,因为它反映了医生的人类知识。
问:这就是TCAV的功能吗?揭示机器学习模型使用哪些高级概念来做决策?
是的。在此之前,可解释性方法仅从“输入特征”的角度解释神经网络在做什么。我这话是什么意思?如果你有一幅图像,每一个像素都是一个输入特征。事实上,扬·勒丘恩(早期深度学习的先锋,目前是Facebook人工智能研究主管)曾表示,他认为这些模型的可解读性已经非常高了,因为你可以看到神经网络中的每个节点和这些输入的数值特性。这对于计算机来说是很清晰,但是对人类来说就不是这么回事了。我不会跟你说,“看看像素100到200,RGB值分别是0.2和0.3。”我只会说:“这有一张狗的照片,它的毛很蓬松。”这才是人类交流的方式,我们通过概念交流。
问:TCAV如何在输入特性和概念之间执行这种转换?
让我们回到一个医生使用机器学习模型的例子,这个模型已经被训练过用来识别潜在癌症细胞的图片。而作为医生,你可能想知道“融合腺体”这个概念对模型预测癌症阳性有多大的影响。首先你要收集一些有腺体融合例子的图像,比如说20张,然后将这些标记好的示例插入到模型中。
然后TCAV在内部所做的流程叫做“敏感性测试”。当我们插入这些融合腺体的标记图片时,癌症的阳性预测概率会增加多少?你将其用0到1之间的数字来描述,这就是你的 TCAV 分数。如果概率增加,那这是模型的一个重要概念,如果没有,那这对模型来说就不是一个重要的概念。
问:“概念”是一个模糊的术语,有没有概念是不能利用TCAV系统的呢?
如果你不能使用你数据集的某个子集来表达你的概念,那么它就不能使用这个系统。如果您的机器学习模型是基于图像进行训练的,那么这个概念必须是可视的。比方说,我想要在视觉上直观地表达“爱”的概念,那这就真的很难。
我们还仔细验证了这个概念。我们有一个统计测试程序,如果概念向量对模型的影响与随机向量相同,它就会拒绝这个概念向量。如果你的概念没有通过这个测试,TCAV会说:“我不知道,这个概念看起来对模型并不重要。”
问:TCAV的本质是创造人类对AI的信任,而不是创造对AI的真正理解吗?
它不是,我会解释为什么,因为这是一个很好的区别。
我们从认知科学和心理学的反复研究中得知,人类非常容易上当受骗。这意味着欺骗一个人去相信某些东西其实是很容易的。而机器学习的可解释性目标正好相反,它在告诉你一个系统是不是不安全,它是在揭示真相,所以用“信任”这个词并不恰当。
问:所以可解释性的关键在于揭示人工智能推理中的潜在缺陷吗?
是的,没错。
问:它如何暴露这些缺陷?
你可以使用TCAV询问一个训练过的模型一些不相关的概念。回到医生使用人工智能预测癌症的例子,医生们可能会突然想,“看起来这台机器对很多带有蓝色伪影的图像给出了癌症的阳性预测,我们认为那个因素不应该被考虑进去。”因此,如果他们在蓝色这方面获得了TCAV高分,他们就发现了自己的机器学习模型中的一个问题。
问:TCAV被设计成连接到现有的无法解释的AI系统上,那为什么不从一开始就使AI系统变得可以解释,而不是现在的这些黑匣子?
可解释性研究有一个分支关注于构建固有可解释性的模型,这些模型反映人类如何推理。但我认为:现在到处都已经有人工智能模型,它们已经构建好了,而且已经被赋予重任,但它们从一开始就没有考虑过可解释性,这就是事实,我们在谷歌就有很多这种人工智能模型。当然你也可以说“可解释性非常有用,让我来为你建立另一个模型来代替你已有的模型吧。”但如果你要非得这样做的话那我只能祝你好运了。
那么你会怎么做呢?我们仍然需要度过这个决定这项技术是否对我们有益的关键时刻。这就是为什么我采用“培训后”的可解释方法。如果你有一个别人给你的模型,但是你不能改变它,那么为了能够安全地使用它,你要怎么去解释它的行为?这,就是TCAV所做的工作。
问:TCAV可以让人类询问AI某些概念对它是否重要。但如果我们不知道该问什么呢?如果我们想让人工智能系统自己解释自己呢?
我们现在正在着手的工作可以自动为你发现概念。我们称它为DTCAV (Discover TCAV)。但实际上我认为让人类参与其中、让机器与人类进行对话才是可解释性的关键。
很多时候,在高风险的应用中,这些领域的专家们已经有了他们所关心的概念。我们在Google Brain的医学应用中可以看到这种重复,他们不希望得到某组概念,他们想告诉模型他们自己感兴趣的概念。我们和一位治疗糖尿病视网膜病变(糖尿病视网膜病变是一种眼科疾病)的医生合作,当我们告诉她TCAV的时候,她很兴奋,因为她已经有了很多关于这个模型可能做什么的假设,现在她可以测试那些确切的问题。这实际上是一个巨大的优势,也是一种以用户为中心的协作机器学习方式。
问:您认为如果没有可解释性,人类可能会放弃人工智能技术。但考虑到人工智能的强大,您真的认为这是一种现实的可能性吗?
是的,我是这样认为的,专家系统就是这样的前车之鉴,(在上世纪80年代)我们发现,它们执行某些任务的成本低于人工操作员。但是现在还有人在用专家系统吗?一个都没有,在那之后我们进入了人工智能的冬天。
现在看来不太可能,那是因为人工智能领域的炒作和资本在作祟。但从长远来看,我认为人类可能会做出自己决定,也许是出于恐惧,也许是缺乏证据,这个决定会认为这项技术不适合我们,这不是不可能的。