当医生拿出一张CT扫描照片,向患者告知“根据人工智能算法的判断,您可能患病了”,病人会相信这一结果吗?是否需要医生进一步向患者解释,这一算法依赖于哪些参数,使用了哪些函数,是如何得出这一诊断结果的?
令普通人困惑的原因在于,输入的数据和答案之间的不可观察空间。这样的空间通常被称为“黑箱”(black box),简而言之,建立在人工智能和机器学习(AI/ML)基础上的预测算法越来越多地参与进医疗领域中,而预测算法本质却是一个“黑箱”。
换言之,算法是如何从“一个医学图像的像素值”得出“该患者是否患癌”的结论,这一过程通常难以向大众解释,也难以被大众理解。
这也因此引发了不少人对医疗实践中预测算法的质疑,认为其“黑箱”性质会瓦解人们对人工智能的信任和接受度。在不少国家,学术界、政府和民间社会团体纷纷提出,预测算法应该增加透明度,应该能够被解释。
不过,一个“通俗易懂”的算法是否将牺牲诊断的准确性?欧洲工商管理学院(INSEAD)决策科学助理教授巴比奇(Boris Babic)、哈佛大学法学院卫生法律中心研究员戈克(Sara Gerke)、INSEAD决策科学和技术管理教授埃夫根尼奥(Theodoros Evgeniou)、哈佛大学法学院卫生法律政策中心系主任科恩(Glenn Cohen)在其新发研究论文中指出,要求Al/ML算法具有可解释性,好处没人们说的那么多,弊端却比人们认为的要大。
论文认为,具体而言,可解释的 AI/ML系统不提供黑盒预测背后的实际原因。相反,它们为黑盒函数提供了事后理由。而由于解释性算法是事后推理,因此缺乏稳健性,不一定支持信任和问责制;同时,解释性 AI/ML 也会带来额外成本——此类解释可能会误导用户,提供错误的理解和信心感。
而从监管角度来看,要求医疗保健 AI/ML 的可解释性可能会限制创新——在某些情况下,将自己限制在可以充分解释的算法上可能会破坏准确性。
论文提出,美国食品和药物管理局 (FDA) 等监管机构不应关注 AI/ML 的可解释性,而应密切关注影响患者的健康 AI/ML——例如安全性和有效性,并考虑更加重视临床试验。
在接受第一财经记者独家专访时,埃夫根尼奥和巴比奇则指出,医疗应用中的AI/ML算法是否有必要被解释,这一方面取决于解释对象是谁,另一方面取决于解释目的是什么。
他们认为,如果解释对象是设计Al/ML算法的研究者,或专科医生等能够与该模型深度互动的人员,而解释目的是改进AI/ML算法,那么就需要尽力向这些人解释AI/ML的作用机理。但如果只是为了获取患者或普通水平用户的信任,则没有必要将算法淋漓尽致地展开解释,因为对诊断结果的信任可以通过其他途径来增进。
必须解释“黑匣子”算法?
第一财经:人工智能和机器学习(AI/ML)的技术发展对医疗产生了什么影响?
巴比奇:我认为它正在一些领域产生相当大的影响,特别是在诊断领域有了许多医疗上的应用。FDA已经批准了许多AI/ML的成果,比如用于诊断眼疾的、用于CT扫描的、用于X射线评估的、用于监测心脏状况的等等。这些系统大多是半自主的,它们能够自己做出诊断,但是在主治医生的帮助下。
埃夫根尼奥:(将AI用于医疗)这不是最近才发生的事情。对医疗保健方面人工智能的研究可能已经超过40、50年了。而且在上世纪80年代,已经有一些早期的尝试,但不是很成功。医疗领域的AI主要是关于诊断建议的,但也有治疗建议。此外,我们在文章中没有提到的另一种使用场景是,与制药和药物研究有关的AI。这是一个很重要的方面,它主要通过计算学方法和计算生物学加快研究。但我们文章主要关注的是诊断和治疗建议。
第一财经:你认为卫生保健中的AI/ML模型需要解释吗?或者说,到哪种程度时,解释AI/M的这项工作就不值得付出更多的努力了?
埃夫根尼奥:首先要问的一个问题是,要向谁解释。这个问题涉及不同的利益相关者。有全科医生,也有专科医生,有保险人,也有病人,有病人的亲属,有高水平的病人,也有水平不高的病人。还有一些研究人员,他们负责开发人工智能系统的机器,或者是医学研究人员或计算机科学的人工智能研究员。因此,某种程度上,把可解释性作为一个笼统的概念来讲是非常危险的。
第二个问题是,对于其中的一些利益相关者来说,解释是否有必要以及有用也很重要。例如,对于开发系统的工程师,或者是科学家、研究人员甚至是专科医生来说,解释是很重要的,而且要尽可能多地向他们解释,因为他们可以帮助改进整个过程,提出新的假说等。
第三,通常来说,当我们接受药物和其他医学治疗时,我们其实并不真正了解它们是如何作用的,大多数医生也是如此。当涉及到信任问题时,其实我们不需要通过解释来获得信任。我们只需要知道,一些专家已经批准了这个设备,或者一些专家正在使用它们,或FDA等监管机构已经批准其使用,这意味着这个东西通过了很多严格试验。
如果是为了信任,我们可以通过不同方式获得信任。如果是为了从专家那里获得技术和模型的改进,那就必须给出一些解释。
巴比奇:我举一个很好的例子,就是开处方药。当我们在柜台上拿到止痛药的时候,通常我们不知道它是如何起效的。我们不知道该药是通过什么生物机制来减少疼痛,但我们相信它是安全和有效的。而这一原因是,通常我们认为该药已经经过了一些监管过程。
我们能够得到一些信息,这些信息并不是对生物机制的真正解释,我们能知道的是,这个药片可以减少发烧和疼痛。它还披露了一些副作用,它告诉我们可以吃多少,吃多少算过多,以及我们应该多久吃一次。这种信息通常足以让我们信任这种药物,而不需要真正了解它的工作原理。因此,这就是我们所说的,可解释性可以是一个“烟雾弹”。我们不需要为了理解,为了大家能够信任这种药物,而为每个人追寻因果关系的解释。因此,在这个意义上说,我们认为,安全性和有效性能够与可解释性分开。
如何对AI模型产生信任度?
第一财经:那什么时候,AI模型需要被解释呢?如何平衡程序的公平性和AI/ML模型的准确性?
巴比奇:我们的方法是划分使用场景,来划分什么是可解释的模型。简单来说,典型的“黑箱”模型我们能够在现如今大多数医疗应用中见到,比如深度学习和神经网络,这些都是“黑箱”模型。可解释的模型通常会更简单一点,如普通的回归类型模型或决策树。一般来说,当人们使用这些可解释的简单模型时,准确率可能会较低。但我们的建议是,在某些情况下,我们可能会接受这种“代价”,因为这里有其他更重要的考虑。
具体而言,我们有时会面对医疗资源的稀缺性,要在这种条件下分配宝贵的资源。比如,我们必须决定由谁来得到肾脏捐赠,我们只有有限的器官,却有太多的人需要这些器官,这意味着名单上排队的人有些将被拒绝。或者,我们必须决定哪个新冠病患能优先得到呼吸机。我们的想法是,当我们不得不做出这些分配决定时,我们必须为人们提供一个理由,比如病患没有得到肾脏的原因是年龄等因素,我们必须告诉他们为什么会被拒绝。
在这些情况下,我们希望模型本身是可以解释的,让我们可以看到模型中的内容,让我们能够理解为什么这个人没有得到肾脏或呼吸机。这就像一个评分系统,如果他们想在这个过程中提出上诉或反对,我认为这也可以作为一个(诉讼的)基础。
第一财经:如果目前对医疗保健中AI模型的可解释性的热情可能被夸大了,那我们如何减轻用户的怀疑、缺乏信任和缓慢增加的认可度?
埃夫根尼奥:首先,人们必须信任,必须能够理解和信任这种AI系统的开发和批准过程。因此,批准的过程必须非常严格,有很多不同的测试和平衡,有不同的人审查,就像所有被我们信任的药物一样。因为我们知道,监管机构真的经过第一阶段、第二阶段、第三阶段的测试,耗费了好几年的时间才推出了新的品牌 ,在这个过程中审查和批准是非常严格的。而监管机构应该注重那些需要被加强的医疗设备的审批过程。第二,与此同时,不仅仅是在医疗保健方面,而是在一般情况下,人工智能系统的可解释性需要用户具备一定程度的智识。因此,这很有挑战性也很困难。