@Rays 2018-07-08T10:56:41.000000Z 字数 8669 阅读 1894

人们是否可以相信算法自动做出的决策？

机器学习

摘要： 自动决策系统的使用与日俱增。算法可能会给出匪夷所思的结果，也可能会给出不适用于社会的结果。如果监管机构无法理解设备或机器中嵌入的算法，那么他们如何能确定系统的安全性和有效性？科学家如何根据算法的发现去理解关系？正如核能和转基因作物那样，公众对技术的恐惧，或是未虑到一些无法预见的不利后果，将会阻碍技术的发展。

作者： Michael Veale，Michael Stiefel，Andrew Burt，Rebecca Wiliams

正文：

本文要点

对于在自动化决策中使用算法，社会应该对其透明度以及在法律和财务上的责任做出要求。否则，公众和监管机构将无法理解和规范复杂的算法，以及这些算法所使用的数据网络间的复杂互连。

对于执行公共政策或科学研究中使用的算法，人们依然尚未就如何定义、规避甚至是认清中算法中的偏差达成共识。

许多技术（例如个性化家庭）的无缝性和便利性，使得人们很难理解数据的来源、算法如何使用数据以及数据的发展方向。

公司和个人，尤其在为公共部门工作时，应该考虑到必须及时向那些受到不利影响的人解释算法决策的结果，以便这些人能够对决策提出上诉或质疑。

必须对个人数据的使用方式做出解释，这个要求看上去似乎具有合理性。

自动决策系统的使用与日俱增。

支撑这些系统的算法可能会给出匪夷所思的结果，也可能会给出不适用于社会的结果。如果监管机构无法理解设备或机器中嵌入的算法，那么他们如何能确定系统的安全性和有效性？科学家如何根据算法的发现去理解关系？

这样的领域包括确定被保释者或者可获得金融信贷者、预测犯罪的发生地点、确定违反反歧视法的情况，或者判定自动驾驶汽车事故的过失。

目前人们尚不清楚，算法检测自身缺陷的能力，是否要高于人类确定自己是否的确患有精神类疾病的能力。算法中没有一行代码明确表示要做坏事。

为解决这个问题，我们应该怎么做？

本次讨论小组成员：

Rebecca Williams：牛津大学彭布罗克（Pembroke）学院公共法和刑法教授。
Andrew Burt：Immuta首席隐私官和法律工程师。
Michael Veale：伦敦大学学院科学、技术、工程和公共政策系。

InfoQ：通常人们并不了解算法在社会中的作用。随着算法的使用日益普遍，要使人们了解其中相关的优点和问题，最优的教育方法是什么？

Andrew Burt：我们需要明确历史和场景，即这种技术以前是如何使用的，现在又有什么不同，尤其是涉及到通常所称的“AI”时。一方面，Elon Musk等人宣称的“AI是地球生命存在的威胁”，这的确影响了公众对AI的看法。另一方面，AI具有一批坚定的支持者，他们声称AI能够解决我们的所有问题。当然，事实并非如此。更重要的是，AI所带来的每个挑战并非都是新出现的。为应对其它领域的一些挑战，我们已经开发了一些工具和实践。所以我认为，每个人都可从认真审视AI的更广泛讨论中受益。让我们以过往的成功为基础，纠正我们在先期技术采用方式上的错误。如果我们的做事方式正确，那么我们将可从中受益匪浅。反之，如果我们的做事方式不正确，那么会贻祸无穷，例如歧视性危害、错失机会等。其中的风险很高。

Rebecca Williams：GDPR中的第13(2)(f)、14(2)(g)和15(1)(h)条款规定，数据主体“有权知道存在着包括了数据剖析的自动决策”。因此，无论人们从过程信息中获得了什么，至少都必须要告知人们在做出关于或涉及他们的特定决定时，何时何处使用了自动化决策流程。希望这会提高人们对何时何处使用这些系统的认识。

对于教育而言，显然开始得越早越好。学校越来越多地向学生传授编程及道德问题，例如公民身份、个人和社会教育等。因此在这些场景下，教育越是提高人们的认识并开展更多的讨论，那么下一代将会在系统的设计、运营和交互上做出更好的准备。这绝对是大学可以推动的事情。现在已经有了一些环境，学者通过访学为学校教育提供支持。如果在自动决策问题上也出现同样的情况，那将非常好。

这当然也留下了一个问题。一些人在这些关注问题出现之前，就已经已经完成了学校教育，我们如何能够联系上他们。和其它类型信息的传播问题一样，这里存在着同样的挑战，即人们倾向于依赖某些信息源，而不是其它上午信息源，从而导致出现回声室效应和错误信息的风险。主流媒体肯定会在其中发挥作用，并取得平衡。同时，基于科学的报道也一如既往地至关重要。但如果公众对这些信息来源的依赖程度越低，那么这样做的效果就会越差。类似于信息专员办公室（Information Commissioner’s Office）这样的机构，通过自身的网站向公民提供建议和信息，这种做法肯定会发挥一定的作用。而且作为一名学者，我也希望看到大学也在这方面提供协助。大学可以通过对这些网点提供支持，或者通过直接的公众参与。

Michael Veale：技术设计上的一个大的趋势，就是实现系统的“无缝化”。简而言之，这意味着人们可以专注于他们想做的事情，而不是他们想做什么。通常，这对个人来说是非常好的，它有助于人们实现自己想要的事情。一个例子就是智能家居，尽管不少现有系统依然非常笨重，完全无法称为是智能的。然而，对于今天的一系列算法系统来说，过多地追求无缝性意味着个人没有机会质疑这个系统是否按照他们想要的方式工作。你的智能家居可能是个性化的，但你无法看到它发送数据的位置和对象。你的Facebook新闻概要可能看起来颇具吸引力，但你无法看到哪些新闻被剔除了，也无法知道筛选的理由。

我们可以开设一些关于社会算法的课程，但这不太可能解决一些更深层次的问题。技术正在快速地发展。有一天，我的小表妹在学校告诉我，她们一直在学习网络安全。“他们告诉我们不要点击弹出窗口”，她说，“但我怎么知道弹出窗口长什么样？”。浏览器的技术进步很快，已经做到完全阻止弹出窗口，而在移动设备上这根本就不是一个问题。因此，一次性教育除非能建立通用的关键技能，否则教育目标通常会改变得过于活跃。

因此，我们需要将教育融入到日常使用的产品和服务中。这些服务应该具有很好的自解释性，不一定要通过文本或手册，而是应该通过巧妙的设计，在发生数据流动、自动化决策以及其它行为时给出清晰的说明。在能做到这样的情况下，对于那些有更深入了解需求的个体，还应该支持进一步的钻取，以查看和了解更多的信息。此后，即使教育中并未提供感知和钻取的选项，人们无疑也会更多地感受到周围正在发生的事情。

InfoQ：算法通常用于公共政策的执行，或用于一些可影响公共政策的科学研究。其中不可避免会涉及一些法律要求、价值判断和偏见问题。如何使社会价值明确可见，并在算法编程和解释结果中避免偏见？

Burt：从技术方面看，为最小化这些缺点的影响，各种各样的重要工具正在开发中。其中一个很好的例子是称为LIME的工具，它有助于解释所谓的黑盒算法。在机器学习的可解释性问题上，数据科学家Patrick Hall做了一些很好的工作，值得在此推荐。我还可以举出更多的例子。Immuta的法律工程和数据科学团队在所有这些进展中保持着领先的地位。

但我认为，过程方面的问题是常常被忽视的问题。用于机器学习开发和部署的流程日益重要，美联储SR 11-7等模型风险管理框架早已认识到这一事实。这些规定适用于美国金融机构内的算法。AI Now Institute的研究人员也为此类方法提出了另一种框架，称之为算法影响评估。

坦率地说，此类方法很多。为此我们将发布一份白皮书，简要总结一些最佳实践，也包括技术和程序，以帮助我们的客户及其他人管理实践部署机器学习模型的风险。我们正努力完成该白皮书，期望能在未来几个月内发布。

Williams：我们可以通过多种不同的方式解决这个问题。首先，至关重要的是仔细检查训练和操作自动化决策系统所用的数据。如果数据本身就存在着偏差，那么结果无也会如此。对于美国一些州用于刑事司法的风险预测系统，人们已经做了大量的讨论。这些系统的问题在于，它们倾向于过度预测黑人被告的惯犯情况，而低估了白人被告的惯犯预测。举一个例子，一个可能使用的风险预测因子是前期更多的因轻微的非法占有罪而被捕。然而，这种攻击最有可能是通过警方盘查检测的，而盘查策略往往倾偏向于同一个方向，即过度预测盘查黑人的原因，同时预测需要盘查白人。因为盘查偏向于黑人而不是白人，所以发现黑人惯犯要多于白人。这样，计算给出黑人比白人更容易产生惯犯。因此，数据收集中的初始歧视经由整个系统进入到输出中。如果我们认为初始数据可能产生这种扭曲效应，那么我们就应该仔细考虑数据是否适合使用。我们可能需要考虑对收集平衡数据施加责任。

其次，在编码实现系统的过程中，也需要做出重要的政策决策。Krishna Gummadi的工作表明，不会只有一个可供食用的蛋糕。人们通常需要在不同的准确性度量之间做出选择。正如上面给出的例子，一个能在各种情况下给出最精确聚合预测方法的系统，也可能会具有很大的问题，对一些特定类别的案例给出很大的偏差结果。或者相反，一个对于任何特定类别问题（例如种族地位或性别）具有最高准确度的系统，也可能并不能对于包括所有类别的总体给出如此高的准确度。至关重要的是，不同系统间的任何此类政策选择都应如此理解，即作为政策选择，必须公开透明，并由一个实体负责制定与实现，而非由匿名编码人员在毫无意识的情况下做出。

第三，即使我们确信已经做了所有事先可做的事情，即收集平衡数据并在编码时做出了负责任的选择，但事后我们还必须确保对这些系统做定期的审计，以确保它们不会自动地给出一些我们没有预测到的歧视形式。即使我们不确定为什么系统会发生这种情况，这样做也是有必要的。第四同样也是至关重要的，我们应尽可能保证算法本身的透明性和负责任。如果此类审计的确找出了问题，那么我们应看到问题出现在哪里，以及问题是如何出现的。很多人正在研究这个问题，我们在Aberdeen（Pete Edwards教授）、牛津和剑桥（Jat Singh博士）有一群人，他们刚刚获得了EPSRC的资助，有望在此问题上进一步开展工作。

上述四个问题中，就每一个问题的监管来源而言，这些系统将由公共实体和私人实体使用。如果系统是由公共实体或政府实体经营的，我认为现有的公法必须发挥作用，让这些实体承担责任，并施加以公法已经固有的透明、公平等进一步义务。对于私人实体而言，挑战在于应将透明度、问责制和公平性等职责中的哪些纳入到私人部门，作为增加提供此类系统能力的代价。

Veale：最有用的证据，在本质上就是因果关系。我们想知道的是问题间的相互导致关系，以及世界的运作方式。机器学习算法并非如此好，因此它们给出的结果和具有的预测能力可能会非常脆弱。要使社会价值明确可见，一个主要的方法是放慢脚步，并认识到我们的目标通常不仅仅是预测，而是理解。我们面临着巨大的风险，训练出一代能够做出预测但不求甚解的人。我们在构建因果模型时，更有机会讨论这是否是我们所希望的工作和行为方式。它们或许不是，但它们提供了一种对话方式，更具可见性、更易于开展并更易于沟通。

InfoQ：欧盟通用数据保护条例（GDPR）于今年5月生效。其中的第22条款涉及个人决策自动化。许多人认为该条款不仅要求必须尊重数据的隐私权，而且要求算法做出的决策是可以解释的。

各位是否同意对该条款的这种解释？此法规是否要求将数据从算法中剥离出来？如果是这样，这会降低算法的有效性吗？一般而言，欧盟的方法是否有效？还是“意外后果法”会使情况变得更糟？

Burt：就GDPR将如何影响机器学习的部署，法律界正开展着激烈的辩论。鉴于GDPR在上个月刚生效，很多情况尚需拭目以待。但是在我看来，第22条款需要与第13至15条款一并看，上述条款规定了数据主体有权在自动决策的情况下“获得涉及逻辑的有用信息”。我认为这意味着，在实践中数据主体将有权接受教育，涉及机器学习之类的模型是何时、何原因以及更重要的是如何使用其数据。与所有的法律分析一样，其中存在很多细微的差别。因此，我鼓励大家看一看我之前为国际隐私专业人士协会（International Association of Privacy Professionals）撰写的一篇文章。值得一提的是，一个名为“Working Party 29”的小组对欧盟隐私法的执行方式产生了巨大的影响。该小组已经就此问题提出了自己的建议，断言除了一些豁免情况之外，自动决策在GDPR中是默认禁止的。

Williams：我们知道，在俩群人之间一直存在着激烈的争论。Goodman和Flaxman宣称GDPR给予了完全的“解释权”，而Wachter、Mittelstadt和Floridi则宣称适当的做法是数据主体应该被告知是否存在机器学习组件，以及在检查这些组件中使用了哪些准确性度量。在我看来，后者的观点更合理。我同意应该不仅告诉数据主体使用了哪些数据点，而且还要告诉他们如何在这种情况下做出权衡。正如我在上面所提到的，只要系统是由公共实体运营的，我认为使用我们的“Closed Material Procedure”决策方法做出类比应该有很大的潜力。其中，如果决策对个体具有很大的影响，那么该个体有权至少知道针对他/她的情况一些“要点”，以便“有意义地”使用答辩权。正如Wachter、Mittelstadt和Floridi所建议的那样，其中可能只涉及事前解释，但也可能包括事后解释。对于私人实体，情况更为复杂，因为他们通常受限于更少的职责。我们现有的反歧视法律会起到一些作用，而且即便是在一些私人场合中，使用这种系统中也应考虑到公共类型的职责。

尽管第17条款允许删除个人数据的权利，但不允许删除符合法律义务而必须做处理的数据。此条款的主要区别在于个人数据和一般数据。对于删除个人数据，数据主体具有一些有限的权利，例如第17条所规定的权利。但是对于删除一般数据（即影响整类人的数据，例如上例中的警方盘查数据）的任何权利和义务，可能必须要查看法规中的更一般性条款，例如“保护数据主体的权利和自由及合法利益的适当措施”，或者查看一些一般责任，例如公法（适用于公众或政府的法律）、禁止歧视的相关法律等。

同样，这取决于决策使用的是个人数据还是一般数据。删除有偏斜的一般数据，可能会使得算法更准确；而删除与特定类型申请人相关的准确个人数据，可能会使算法更不准确，并产生偏斜效应。

我认为，当前没有人知道这个问题的答案。我确实认为有必要重提我在上面给出的事后审计做法。如果在实践中我们确实看到了一些意想不到的后果，那么我们就机会抓住这些问题，并对其做一些补救。

Veale：GDPR的第22条款颇具历史，可以追溯到1978年的法国法律，其中大部分与1995年的“数据保护法规”（Data Protection Directive，即1998英国数据保护法，the UK Data Protection Act 1998）的第15条相同。然而，该法规并未得到广泛使用，因此被一些学者称之为“二等权利”。

第22条款的基本目的，是确保如果一个组织想要完全自动化地对某人一个可能非常重要的决定，那么他们需要根据法律依据来做这件事，即自由地做出同意的、必要的履行合同或法律义务。如果组织不满足其中一项，那么他们就不能做出这样的决定。如果组织的确达成了其中的一项要求，那么他们必须采取一些保障措施，以确保可以公平地做出决策，其中包括允许个人质疑的决定。目前在许多情况下，尚不清楚这一挑战将如何发挥作用，因此许多重大决策都是非常迅速做出的。例如，如果从Youtube上自动删除了一个主题政治事件的视频，那么它可以多快的恢复？如果该事件已时过境迁，那么人工审核几乎不会起作用。

除了对人类的挑战之外，另一些保障措施在GDPR的Recital 71中有所介绍。Recital本意是指欧洲法律的开篇部分，用于说明法律的精神和背景。但是对于GDPR这样的充满激烈辩论的法律，它已经在律师们的干预下变成一个放置其它内容的地方，这些内容本应置于更具约束力的主要章程中。不同于其它人类干预权利，解释性保障措施被置于Recital中。因此我们将拭目以待，欧洲法院是否以及何时将认定这些措施对数据控制者具有约束力。

但是，我们不要忘记第22条款的实际含义不仅仅是解释。它肯定限制了人们认为不公平的算法系统的一些使用。例如，根据第22条款，自动招聘和CV过滤是值得高度怀疑的技术。当你决定使用当前市场上提供的一种分析产品自动采访某人时，你可能会完全自动地做出一个重大决策。那么你的法律依据是什么？你没有合同，并可能没有法律义务，因此无需判决。由于权力的不平衡，任何涉及雇佣关系的判决都存在着很大的问题，并且很少被视为免费给予。在我看来，我认为第22条款触及了很多大规模的自动招聘实践，它们在法律上是非常可疑的。

InfoQ：当前，社会在做出关键决策时，广泛地使用了算法而非人类。各位认为这种做法面对的关键问题是什么？

Burt：用两个词形容，那就是“无声的失败”。随着我们开始更多地依赖于复杂的算法，特别是各种形式的神经网络，我们解释算法内部工作的能力渐渐变得越来越难。这不仅仅是因为这些模型难以解释，而且因为将模型连接起来的网络变得越来越复杂。IT世界每天都在变得越来越难以管理。我们拥有了比以往更多的终端、数据、数据库和存储技术。因此，我认为我们面临的最大挑战在于能够理解我们所依赖的数据环境。因为如果我们不这样做，那么就会存在一种非常现实的可能性，即我们会经常会面对一些我们根本不知道的错误，这些错误会产生非常真实的并且可能具有破坏性的后果。

Williams：我想大多数人会将问题封装为“公平”这个词。但实际上，问题应归结为透明度和问责制这两方面。第一，我们需要尽可能多地了解这些系统正在做什么、如何做以及为什么要做。第二，我们需要有一个适当的实体对这些系统负责，并且需要有一个适当的、可访问的系统对该实体负责。

这两个方面的问题，需要我们的法律和监管结构给出并推动解决方法，并与开发这些系统的计算机科学家密切合作。

Veale：其中最大的问题是算法需要得到维护和监督，这很难通过很小的范围实现。从理论上讲，系统可以实现庞大数量和高速的自动决策，远远超出人类所能做到的。一些小型组织的确可以从中受益。先前，如果一个组织想要做出大量的决策，那么需要很多人去完成。这些人可以提供监督和反馈，虽然他们自身也存在着偏见。现在，少数人就可以部署和管理庞大的决策基础设施，但并没有给出监督和维护它们的人力。这产生了巨大的不平衡，特别是对于那些可能会受到诱惑并依赖于自动化和机器学习的小规模组织。这些情况需要得到外部监督。但谁能提供监督？谁要付出代价？如何才能真正地掌握算法决策可能带来的一些隐藏在组织及其工作策略深处的挑战？

结束语

如果没有考虑到公众的恐惧，或是没有考虑到一些无法预见的不利后果，那么这将会阻碍技术的发展。核能和转基因作物就是这样的例子。

为了向受市政机构使用算法影响的人们提供解释和缓解措施，纽约市正在建立一个用于给出建议的工作组。欧盟的GDPR是另一个着手处理自动决策问题的尝试。

Carl Jung有一句著名的话，每个人体内都隐藏着疯狂错乱。如果算法可以建模人类的行为，那么这对社会究竟意味着什么？

讨论小组成员简介

Andrew Burt是Immuta的首席隐私官和法律工程师。Immuta提供世界领先的数据管理平台和数据科学。他也是耶鲁大学法学院信息社会项目的访问学者。此前，Burt曾任FBI网络部门负责人的特别顾问，是FBI对2014年Sony被攻击事件行动报告的主要起草者。伯特在《纽约时报》、《金融时报》、《洛杉矶时报》、Slate和《耶鲁国际事务杂志》等杂志上发表了多篇关于技术、历史和法律的文章。他的著作《歇斯底里的美国：美国大规模政治极端主义的不为人知的故事》（American Hysteria: The Untold Story of Mass Political Extremism in the United States）被诺贝尔奖得主、名誉大主教Desmond Tutu称为“一本涉及很少有人解决问题的必读书籍”。Burt具有耶鲁大学法学院的法学博士学位和McGill大学的学士学位。他是外交关系委员会的成员、华盛顿特区和弗吉尼亚州律师协会的成员，以及经全球信息保障认证（GIAC，Global Information Assurance Certified）的网络攻击响应处理者。

Rebecca Williams是牛津大学公法和刑法学教授。她的工作包括审查最佳决策方法，以及使用刑法作为监管形式。为跟上技术发展的步伐，她的工作越来越多地聚焦于法律和技术的关系，以及法律需要的发展方式。

Michael Veale在伦敦大学学院开展关于公共部门机器学习问题的博士研究，关注点是公共部门数据驱动工具的公平性和问责机制，以及先进技术和数据保护法间的相互作用。他的研究被一些国际机构和监管机构、媒体以及议会辩论引用。他曾担任世界银行、英国皇家学会和英国科学院的机器学习和社会顾问。之前，Veale曾在欧洲委员会从事物联网、健康和老龄化工作。Veale的推特账号是@mikarv。

查看英文原文： Can People Trust the Automated Decisions Made by Algorithms?

人们是否可以相信算法自动做出的决策？

本文要点

结束语

讨论小组成员简介

内容目录

选择主题