@gaoxiaoyunwei2017 2019-01-16T02:17:33.000000Z 字数 4538 阅读 1183

阿里百万主机安全管控演进分享

白凡

分享：铭智（王建）
编辑：白凡

讲师介绍：首先说一下我个人，我叫王建，不能说是第一代做运维的，应该算是1.5代了，因为2004年开始做运维行业，之前做的比较杂。现在很少看到SA、PE这种，像我以前什么系统工程师、应用工程师、开发监控、日志分析、架构，还有些海外的运维，这一整套基本上是我之前做的比较杂的。2015年的时候加入阿里，这三年一直是聚焦于在阿里巴巴的主机系统安全领域，同时也关注于运维效率。从某种意义上来讲，我见证了整个阿里巴巴主机演进的过程，所以接下来给大家分享一下这方面的内容。

image.png-69.2kB

今天的内容主要分为四部分：

第一现状介绍
第二主机安全管控演进
第三思考与总结
第四未来

image.png-43.9kB

1. 现状介绍

阿里拥有成千上万的业务群分布在全球各地，在运维行业里70%到80%的业务场景在阿里都可以见到。阿里现在的业务已经不能说是一家公司或者集团，阿里现在的叫法是“经济体”。经济体一般是一个国家或者一个地区才有经济体，从这方面我想说的是它的业务形态已经不单单是家公司了，业务形态非常地复杂。这是对外公开的一张图，它是一个生态型的，涉及到方方面面。所以说在这种场景下对于安全的要求挑战也是蛮大的。

image.png-366.4kB

阿里拥有国内领先的百万规模主机体量，并且这个量级每年还有很大幅度的增加。这块我也问过国内的同行，私下了解过，目前的主机规模来说在国内还是领先的。这种场景下对于我们日常的安全管控还是挑战很大，不是一台两台，几百台几万台，是分布在全球总体管控的。

image.png-325.1kB

这块大家之前可能不太清楚，我们每年要面对国内外的审查特别多，我这边和他们打交道是比较多，我们的安全有一部分来源于他们，因为这个监管不合规会带来很多业务的障碍，比方说像ISO20071，每年都要来审查，SOX404，以及SOC2、C5、PCI-DSS、ITGC等。这审查刚开始我们都是被动的，所以这也是促使我们的动力。监管合规对我们来说是非常重要，银监、证监没事就要过来查一下。

image.png-67.3kB

上午听了一个同行的将说，腾讯也有一万五千人参与编码，在阿里的生产管理也有几万的技术人员参与，大家可能都是分布在全球各地，那这里的风险也是需要我们统一来把控。

image.png-249.2kB

阿里的三大战略，全球化、农村、语言，在全球化过程中业务范围越大，安全这块也必须要跟得上，对于我们的挑战就是边界问题、分布、人员办公带来的不确定性。

image.png-155.4kB

像阿里很多的应用已经是作为国民应用了，成为国家关键信息基础设施，每次遇到大问题的时候社会反映都是比较强烈的。刚才讲了第一部分，主要是业务规模化的场景，包括它全球化给整个阿里经济体带来的威胁。

image.png-330.3kB

2. 主机安全管控演进

这块我们主要分为这么几个阶段：

主机安全，这个概念可能大家理解的不一样，主机安全到底包括哪些内容每个企业可能定义的不一样，对于阿里来说整个体系里面包括正向管控措施、逆向监测措施。在整个发展过程中主要经历了这样几个阶段，我刚接触的时候其实很多现状和之前的差不多
后来经历了系统化，就整个管控体系的落地
体系化主要是数据联动、组合拳、正逆互动，最后达到安全闭环，然后体系化和智能化是现在在做的。

image.png-65.1kB

大家都会经历过这个阶段，注册密码可能随便给，比方说大家为了方便或者好记，是有关联含义的。体系化设计、生命周期管理，包括一些人员的操作，在操作过程中人员的一些误操作，能不能在这方面做一些防范，难免大家有时候状态不好，这时候能不能有措施防范。权限，像有人私自跨账号访问，对于重点系统的保护，这些问题其实都有。其实阿里之前的状态也是这样，我刚接手这块也是有很多问题的。

image.png-100kB

下面说一下在整个建设过程中参考的依据，这应该是大家比较熟悉的，控制论在各行各业都有应用的，其实很简单，输入输出里面两个东西，控制者和受控对象，用今天的话来说受控对象就是主机（服务器），控制者就是管控系统，管控系统对受控对象进行管控。其实在没有接触这个理论之前，大家都喜欢做正向管控建设，能管控它就好了，但其实会忽略下面的反馈。就说如何验证你前面做的有没有效或者是否全部覆盖，这个反馈就很重要，就说能知道有没有人在破坏你这个规则，有没有人逃逸在这个规则之外的。

image.png-106.5kB

下面就是权限模型，一个是RBAC一个是ABAC，我们是把这两个有机的结合在一起。

image.png-94.5kB

业务的全球化导致整个管控也是要全球化，比方说现在一些堡垒都是全球化部署，不是国内的战略，包括其他的监测也直接是全球覆盖。

image.png-193.9kB

下面就讲一下过程，0大于1，正向管控系统建设，以及从入职到离职的全生命周期管理。在这里面还包括一些信息化，安全的东西光靠制度肯定是不行的，是需要系统来承载来实现的。数据化，阿里最大的特点是在于基本所有的数据都会存项，这在阿里是作为保卫的资源，阿里是所有的业务数据化，所有数据业务化。这是说的整个正向建设的过程，刚才说的控制论图中正向建设的过程，当然在建设过程中也是一点一点的，并不是说一下子全部弄出来。
下面我们说一下反馈过程，反馈整个体系建立完之后导致体系化.

image.png-106.5kB

1大于N。这主要包括两部分，逆向监测体系建设过程，如何评价现在是安全的，有一些手段能监测到它是否是安全的，哪些正常，哪些违规，或者哪些不在预期之内的操作，这是需要我们去构建的。今天来说反向监测体系是非常重要的，必须要有感知能力。逆向系统建设完之后，为什么说体系化，是和前面的产生联动，监测发生异常，前面去拦截阻断，这些管控手段是一整套体系中完成的。它是安全的闭环，不是脱节的，这是这几年我们一直在做的。

image.png-85.1kB

这是威胁治理的情况，这张图是真实的，前面有很多还是振荡波动的安全威胁，到后面就很平稳，这是最终的效果图。

image.png-56.3kB

刚才和大家简单回顾了一下我们安全管控的过程，这里面没有细讲，因为也是第一次和大家讲这个，我们也希望慢慢地把里面更细的部分拿出来给大家分享，整个管控的过程说实在也还有很长的路要走。

3. 思考与总结

运维的本质或者运维的核心大家可能放在这几个方面，到底哪个优先级高、优先级低，最终肯定是归在其中的一部分。

每个公司对这的看法是不一样的，初创公司可能更多关注的是效率和成本，当达到一定规模的时候安全和稳定性就会提出了，像阿里的当前规模体系下不能只关注效率和成本，稳定性是我们的重中之重，牵一发而动全身，稍微有点故障就会引起社会很大反响。

image.png-88.8kB

安全级部分，咱们在上一页的时候安全是独立的部门，从我个人看来安全它和其他的关系是非常密切的，并不是一个独立的部门或者独立的业务形态，安全它是可以为稳定性服务，减少很多的入侵或者破坏这种问题。安全可以驱动效率的变革，之前我们经常说安全和效率是矛盾体，越安全可能效率越低。大家经常安检就知道，北京两会期间安检特别严，要花上平时好几倍的时间，现在很多像生物识别、人脸这种也可以。安全可以带来成本的节约，我最早做的是网游行业，大家知道网游行业是暴利行业，如果你刚上线是热门的话会遭到攻击，如果这时候能解决安全问题会节约很多的成本。像网游公测当天受到攻击的话那影响还是蛮大的，直接决定一个产品的成败。

image.png-50kB

安全手段如果能跟得上，它可以带来一些正向的成本。

我们普遍认为安全×效率=常量，我今天想说的不是上面这个，而是下面的安全×效率=常量×N，我们要通过安全机制的升级以及安全机制的变革来提升效率。过去各种验证，现在生物识别这么发达，那是不是可以引进来，带来一些体验和效率的提升。

image.png-38.7kB

安全不能被企业忽视，安全现在很好，曾经有个朋友也问我，他遇到一个问题，他在企业里是做安全的，但就有个担心说怎么在企业中做安全能被认可。其实我的看法是这样子，安全在国内很多企业中不被认可的，其实是很难被认可的，这是一个共识。可能国人的一些共性吧，条条框框是会被束缚，国人是不太愿意被束缚的，很多企业会首先选择效率，这是客观的现象。

第二点作为安全工作者，安全这块真的要反思给业务带来什么价值，最后决定你被认可的是到底带来什么价值，并且这个价值要能够持续运营。如果在一个企业里你做了很多的业务价值，最后还是不被认可的话，那我只能说这企业就不需要安全，我的建议说你可能需要换一家单位。确实是有这样的企业，它就是不重视这块，换句话说他就是没有安全的需求。就像电商一样，刷单刷评分这种，时间一长平台的信用就会受到影响。

还有个好处，现在安全环境是越来越好了，去年《网安法》颁布，现在出现问题企业要担责，业务主管也要担责。还有欧盟的GDPR，这也挺厉害，我相信挺多有海外业务的都会涉及到。GDPR很厉害，如果违反了信息安全最高罚两千万欧元，这个量是很可怕的。下面还有一些监管合规，现在国家的监管力度是越来越强，包括像未成年微信、阿里的金融体系，监管都是定准的，就在这种促使下安全还是向好来转变。

image.png-51.8kB

安全不能拖业务后腿，你在一个企业里做安全工作最差是这样的。

image.png-39.4kB

安全不能停留在制度上，员工服务器上不能这样不能那样，我相信现在很多还有这个东西，所以说在整个体系上我觉得大家不要用制度来执行，更多的还是要用策略和系统化来保障，这我们也在做很多的尝试，把以前制度上的东西变到实实在在的系统中。

image.png-38kB

安全的最高境界是无处不在，而又毫无感知。安全措施不应成为用户操作的障碍，而是用户信心的保证。会不会因为忽略或者不小心导致的一个故障，我说的“安全”和外面的“安全”不一样，运维操作安全也属于“安全”这个体系。是不是用户无意、有意的威胁把它做了，就用户不用考虑风险的问题，系统会有保障，这方向也是很好的，当然这里面也需要做很多事情。

image.png-52.5kB

这是阿里的九字方针，“轻管控、重监测、快响应”，现在管控要放松，你可以干很多事情，但背后有一套很完善的监测安全保障机制，在有问题的时候能够快速发现、快速响应，把重心放在后面了，而不是说之前就给你设很多条条框框，互联网业务条条框框太多，那很多机会、风投就过去了，更多是后面的监测。

image.png-39.9kB

这里面是安全的一些原则，我相信大家都听说过，集中原则、按需原则、最小权限原则。建设过程中最大的问题是做完之后别自己出现问题，要有一些容灾容错的考虑。用户权限随着用户的身份变化自动变动。

image.png-73.8kB

安全里面还有两个概念，safety和security，这两个我们都做了，做安全的人都能分开这两块的区别，其实我们做的是两块的综合体。

image.png-55.4kB

这是我们之前做的一个主机系统安全成熟度模型，L1是人工管理为主，有安全制度，无系统支撑，L2是安全制度完善，有部分数字化安全支撑系统。L3现在向L4完善，那L4强调的是无感、智能化的。

image.png-173.2kB

4. 未来的想法

未来的安全刚才也提了是无感，对用户一定要无感，这也是我们未来要不断思考的问题，如何做到用户无感但安全能力没有下降。第二个阶段是谷歌里提的比较好的，叫“零信任模型”。

image.png-138.2kB

大家可以随时随地在任何一个地方访问需要的资源、服务，可能圈在一个园区或者某个范围，就说这些东西已经全打破了，打破之前仅限于某个区域的特定访问，未来可能说大家随时随地都可以访问，但这个访问是安全的。还有就是无人化，我们也是在极力的推行无人化，尽可能人员少登录少操作。但无人化这里我打了一个问号，这里面带来一个新的安全问题，系统与系统之间的访问如何安全？任何事情都两面性，一个新的东西出来肯定是会有缺陷的。下一个就是智能化，体验更好，这块也是我们未来一段时间需要尝试的。

image.png-51.1kB

未来的安全我认为可能会有这些关键词，智能化、机器智能、无感等，主动去构建一层防护。

image.png-227.8kB