@gaoxiaoyunwei2017 2018-05-08T06:08:42.000000Z 字数 6155 阅读 1308

负重前行—顺丰数据库运维的求变之路

彭小阳

负重前行—顺丰数据库运维的求变之路

作者简介：

刘力，顺丰科技应用数据支持部负责人。2013年加入顺丰科技，数据库团队负责人，主导了顺丰科技数据库架构从非标到标准，从传统到开源，从集中到分布式的技术演进；带领DBAs，从被动到主动，从不变到求变，从人工到智能的运维模式转变。十余年大型数据库架构设计和管理经验；曾任职平安科技，负责银行业务线数据库架构设计和管理。

前言：

今天主题是《负重前行—顺丰数据库运维的求变之路》，为什么叫负重前行？传统的公司做互联网转型历史包袱非常重。尤其顺丰这种业务高速发展的过程中，包袱和急速转型中就像在高速列车上换轮子一样，风险很高。
01.png-83.3kB
顺丰的业务在逐年增长，另外我们的业务领域也在不断地拓展，从快递到冷链、仓储、金融，我们DB管理的数据实例量也在增加。
在这种状况下，我们还要经历很大的一个技术变革。
第一方面就是最开始的数据库类型很多，我们主动从非标到标准的转移。
另外就是被动的，从上自下的，公司要从传统的领域转向互联网领域。做了一个决策，就是要从传统领域到开源领域的转型，我们被动的接受，也要做。
第三就是开源领域下，维护的数据量怎么做稳定的运维。

我今天讲的内容是：非标到的标准，传统到还源，集中到分布式，智能运维。我今天着重讲一下集中到分布式，以及智能运维的课题。

1、非标到标准

02.png-36.7kB

1.1非标到标准洪荒之年

数据库类型繁多，DBAs被技术割裂，忽略用户需求。
03.png-103.2kB

1.2非标准到标准穷则思变

面对比较繁杂混乱的状况，我们还是要做一些主动的改变，不然就一潭死水了。
04.png-123.7kB
第一，我们会减少DB的数量，因为当时我们的技术能力还主要在SQL这块比较强；
第二统一基础架构方案，这样不会因为一些个性化的事情导致运维的问题；
第三环境标准化；第四关注基础资源状态，存储出问题，网络出问题，主机出问题，是不是你的锅，都是我们的锅，如果不承认的话，这个锅永远存在，所以你要关注它。
第四是主动预防，我们做一个闭环，这样把一些问题通过一套系列的流程和机制全部建立起来，做完这些问题之后，我们整个数据库的稳定性得到提升了，DB可以从反复的扯皮中脱离出来，做真正有意义的事情。

2、从传统到开源

05.png-36.7kB

2.1传统到开源之去商化

06.png-203.8kB
我们突然有一天从上自下要做开源，转型，这不是我们主力做的，这是从对上层的领导决策方向来做的，你到底是干还是不干，你既然想在这个位置上做就得干，我们要做大力水手，而不是鸵鸟。
我们传统的是拿核心仓储系统，对顺丰来讲是非常核心的系统，当时的转变压力还是很大的，不像一般公司里找一个外围系统看一看，我们一上就上核心系统。另外很多公司的做法是从外面找一些买手专家，拿过来起一个项目做这个事情，我们基本上靠自己团队完成这个转变。
当然我们也从外部引第三方服务商。我们最开始的思路就是，既然它的差异性很大，我们要想到，关键数据和本质在哪里，我们当时想的就是关键数据库最核心的两个：
一是控制事物，如果不管事物的话根本不需要数据库；
第二关于数据库最重要的就是索引，创建索引非常方便。
所以我们抓住这两点：
第一业务逻辑不要在数据库做，它只是做关系型数据的容器，把这个容器保存下来，最后业务逻辑都上升到业务去。业务逻辑无状态的扩容非常容易，四个不够八个，八个不够80个。
第二控制规模，因为我们最开始是没有能力做分布式方案的，怎么办？就把你从业务逻辑上去拆，全部拆开；我们当时逼着研发，最开始八个，其实很多了。一个相同领域的业务系统里面，我们把它从一个业务系统拆成八个业务系统，因为这也没办法，单个处理的性能和能力只要太大的话是无法支撑的。
第三是靠SAN来解决，怎么保证数据不丢失，我们退一步，还是用SAN帮你找，解决自动化问题。因为技术本身对企业不是最新的就是最好的，而是对企业目前阶段，能解决企业问题的技术就是最好的，所以我们最开始自己做一套切换的方案。

2.2 传统到开源之运维开发

07.png-114.3kB
第一，既然是去商化，SAN也要干掉的，所以我们开始着手做自己的运维研发的转型。我们就打造自己的研发团队，我们从外部招了一些相对经验丰富的运维研发人员，两三个，然后配合我们自己内部的大学生，因为大学生是一张白纸，一个有经验的人多大学生往前冲，出成果的机率比已经在运维打造很久的人更高。
第二，团队建立之后，我们发现其实运维经理去管研发团队，会有一些角色上的偏差。如果他们管理的力度不够，发现研发小团队里面自己内部出不了什么成果，可能他一直沉浸在新技术里，但是拿出来没办法用，因为没有运维在里面做驱动。后面我们一切以一线运维的需求做抓手，驱动研发往前走。
第三个，我们研发团队建立之后，从最开始的整个需求、研发、测试、发布都自己玩，最后做规范化的改造，我们有自己的需求小分队，有架构师、有研发小分队，还有针对这个产品有自己的运维分队，把这些东西都隔离出来，各层监督。
第四是增加运维的参与度，现在处理问题主要是运维的问题，所以运维什么地方痛运维自己知道，所以他会做自由分析，第二回做原子操作开发，第三做验收和吐槽，我们建立了专门的吐槽机制，把研发和运维调动起来。

3、从集中到分布式

08.png-36.7kB

3.1集中到分布式单实例性能瓶颈

09.png-109.2kB
现在谈一下我们从集中到分布式扩展的过程，单个Mysql TPS上限是一万+，但基本上可以到3万5左右，但我们真正用Mysql一般控制到5000，尽量2000，是比较安全的。一般我们讲仓储系统，最开始从一个拆到8个，已经非常多了。但是再往下拆拆不动了，再拆就是数据交互时代，这样失去了拆的意义。
这种情况下我们进行区域拆分，把全国的数据拆到北京、上海、广州、深圳，拆了很多出来，但这样对运维和研发压力很大，对研发来讲，他需要做运营架构改造，至少要做导流，要把深圳的倒流到深圳，北京的导流到北京，这样整个业务架构的前端足够了。
第二关联数据处理，因为不像一些区域性很强，比如滴滴，深圳的单在深圳，北京的在北京，但顺丰这种关联数据要处理，这种也很麻烦。他想你为什么不能给我一个强大的数据库，对于运维来讲，他需要部署N套应用，因为不布一套数据库就要布一套应用，这样我们有一百套数据库就有一百套应用，而且怎么保持一致性也是很头疼的事情。

3.2集中到分布式Mysql_proxy

10.png-104.9kB
我们后面基于开源的数据库，就是Mysql，做了二次开发。我们当时引入Mysql之前，也是测过一些Mysql等一些产品，我们经过了大量测试，后来发现，结论第一就是Mysql的确能商用了，第二它的基本功能满足我们了，那些读写分离的功能我们暂时都不考虑用，最终我们还是选择用Mysql来做数据库中间件的基石，因为还是在我们开源的思路导致的。
我们基于Mysql做了很多二次开发。我们最核心的运单系统里面，现在在高峰期的达到20万，这算比较高的值，当然跟互联网公司比还有很大差距。第二我们做了智慧防火墙，主要解决DV和研发反复沟通质量的问题，就把基础的迁移到防火墙里面去。
第二获得了大数据的功能，一旦研发有比较差的写法，需要全分片扫描的情况下，而且扫描数据比较大，比如一两百万，这个Mysql就很容易挂起来了，因为它的内存被撑爆了，这样对生产运维有很大影响，所以我们做了大数据会聚的读本。我们是用的是1.5.1的版本，现在应该是1.6.2的版本。
我们把这些功能基本上都回馈到社区去了，里面关键的bug都扣掉了，把我们一些已写好的代码上传到社区，也是取之于开源，用之于开源。

3.3集中到分布式大数据汇聚

11.png-133.5kB
这里着重讲一下两个功能，一个是大数据汇聚的功能，我们把整体排序放到File去了。在正常的业务系统里面，不应该有这么大的排序。我们做完之后，经过测试可以实现上亿数据的聚合。因为你把排序从归类搬出来了，避免OOM，所以应用程序本身有好处。

3.4集中到分布式SQL防火墙

12.png-126.6kB
另外做防火墙，文档和培训永远赶不上研发人员迭代的速度，不断有新的研发速度，第二，外包变迁也是非常频繁的事情，很多情况下保证规范能够落地到研发，靠人已经斗争了十几年，没用，只能靠平台了。所以我们把规范和要求全部落地到平台上去。
比如最简单的，Mysql要建索引要求，卡住，根本上不了房间。第二降低DBA和研发之间的交互，现在有审核代码的工具，但审核还要跟研发说不行，沟通程度很高。底层研发人员更喜欢自己搞定自己的事情，沟通成本在我们工作里占了很大成本，所以我们也希望直接通过平台方式把它规避掉。
我们应用在两个地方，在开发的时候，如果你写了一些代码，我帮你跑，研发只要报错就改。这种情况下我也不会直接有人告诉你怎么改，直接平台告诉你。这样就不会有正面的冲突。
第二个我们会在生产环境中，生产环境我们不敢开这个功能，所以我们只做了信息搜集，在应急情况下，比如说出现了一大批高并发的SQL，可能在应用层面没办法剥离，这种情况下直接拒绝异常SQL。但这个我们还没用过。

4、智能运维

13.png-36.6kB
智能运维，矛盾转移，研发运维的需求满足，面对膨胀的DB数量，运维复杂度大幅提升。解放DBA双手。对内我们主要做资源池化的动态管理，第一个是HA的逻辑化，像数据的HA大部分带数据属性。这些动作其实计算很简单，但是很耗时间，特别是在成千数据库情况下，就都耗进去了。
14.png-118.8kB
我们现在可以把标准机器直接做库存管理，对这个事情管起来，如果需要把10台变15台，就把这5台加入标准池里面去，标准池是0，它会把一些使用率高的自动往0上做迁移。还有一个减，减分两种，第一种就是做HL，还有主机能用，但是从管理上要剔除，我们会把主机的CPU值设到100，它会逐一地迁移到低的里面去，如果全部剔干净会把它踢掉。

4.1智能运维联合作战

15.png-117.7kB
我们目前内部做的一个自动化管理平台就是叫Thinkdb，我们会有两个维度，一个是应用维度，第二个是组建维度，去做配置性获取。
配置平台，就是以应用和组建2个维度自动获取；
监控平台就是组件状态实时数据采集；
容量平台：日常容量管理，高峰容量预测。
硬软件实验室：这个也是近一两年才开始做的，这一两年长期在推动研发去做硬软件的优化，底层也是优化空间，比如这台主机到底现在怎样是效率最好的，能不能通过数据库的配置作为调优，我们觉得这个事情做得很有意义，我们通过一些调整可以把整个数据库的性能提升20%到30%，这种情况下可以在相同的硬件资源情况下支撑更多的数据库。交互平台是面向用户的，自助交付。
容灾平台：应用视角以及组件批量处理。
恢复平台：指定时间点自动恢复。

4.2智能运维解放双手

16.png-122kB
对关键的点我会介绍一下，第一是配置管理，其实配置管理大部分都能做，但怎么样做到配置百分之百。如果我们作为一个自动化运维平台，就要做到这一点，因为你要把物理操作做成逻辑操作，做不到这一点就会导致故障。比如现在好多都是100个数据，但里面记录的是99个，如果批量操作的情况下，漏了一个就会引发故障。
然后我们在这方面从三个维度来做，第一我们从外部有一个配置平台的数据，第二块我们会在DB自己内嵌一个信息搜集模块，这两方面的数据互相交互，要求耦合度100%。第四是在所有命令下发之前，实时校验实例状态，一定要保证此时此刻的动作状态和实际情况一模一样。
17.png-117.2kB
另外说HA的自动管理，我们建立运维研发体系，第一个目标就是解脱HA，我们现在用MGR，这个功能推出的时间不长，但我们已经在用了，所以我们胆子还比较大。数据库一致性的要求我们靠MGR+OS/DB双心跳确认+服务恢复。确定完之后，我们通过切换做应用恢复。
另外数据一致性要求没那么高了，半同步+OS/DB双心跳确认+服务服务恢复。HA自动恢复，尝试建立异常节点和新主动的同步关系；自动重建异常结点，并恢复同步；容灾节点自动和新节点建立同步关系。这个事情可以把HA很多处理的时间省出来。
18.png-114.5kB
第三个讲资源池管理，我们做了一个资源池管理逻辑，对接监控平台，获取资源状态数据，资源管理逻辑：Pctfree/Pctused资源使用率上下限。动态资源调整：定期自动触发物理节点间实例再分配。物理资源自动扩容：对接容量平台，获取容量预估数据；物理主机管理：库存管理，热增减。
19.png-120kB
这里谈一下SQL代码质量控制，我们在开发环境，主要通过Mysql内嵌的防火墙拒绝不合理的接口，在测试环节还有个SQL代码审核的过程。这个逻辑本来就成立一个需求，这个需求会进入到防火墙的需求代码里去做一些拒绝或者通过。
第三个就是我们会把生产环节的SQL质量拿来打分，打完分之后，对这个分做一个排列，我们就给到对应的研发老板，效果还是比较好的。我也不说具体哪个系统哪个数据有什么问题，我就告诉你们这类型的分数比别人高还是低，来驱动研发有从上至下的优化SQL代码的举动。

4.3智能运维业务支撑

20.png-118.8kB
这里讲一下我们Thinkdb在顺丰的运用情况，我们核心应用都纳进去了。然后新实例上线，自动接入Thinkdb平台。老实例逐步加入Thinkdb管理，覆盖率40%。运单系统，分片100+，高峰TPS20W+，双十一高峰很平稳。

4.4智能运维放飞大脑
21.png-87.7kB
大部分要介绍的都介绍完了，这是一些心得。第一个是DBA的沟通协调和逻辑思维能力是很强的，开放心态，敢于尝试。我们自己的团队里现在有数据架构师，有运维开发，还有需求分析师、产品经理。
我们现在的团队虽然不大，但是五脏俱全，什么都有，大家都愿意尝试一下，天天窝在那一个圈子里大家也会觉得太腻。

4.5心得交流运维转型

22.png-82.6kB
这里讲一下，当你把问题看成自己的时候，你的边界在不断扩展，我们最开始比较惨，五年前我们的故障可能每天有20多个，随着我们把应用的问题以及OS的问题，存储问题等全部存储以后，发现这些问题逐渐在消失，因为你发现是自己的问题就会推动去改。
因为对运维来讲就是数据不能用，你能看到你就去搞定。既然是你的问题，你就驱动关联方搞定这些问题，在这个过程中本身他的视野范围也更扩大了。
第二个就是对DBA来讲，架构设计也是手到擒来，因为应用层的东西虽然数量不高，可以通过无限的节点来掩盖一些事情，但你实际上搞不定这一点。所以架构设计对DBA是手到擒来，你可以把所有已知的问题全部当成一个钉子锤下去。
我们在整个过程中，从五年前的故障20次，从非标到标准的时间一个月一次，最近三年的故障已经控制在0次。一方面本身DBA团队也有很多付出，另外研发愿意帮你做改造，这也从上自下因为思路的改变，所以从传统向互联网转型除了技术变迁，最重要的是思维变迁，包括运维和研发的思维变迁，如果他们做不到的话我们也做不到。
最后运维的原罪，因为运维是做减法的，零故障也是100分，你做不到120分，但研发能做到130分、200分。如果你把基础运维已经做好了，任何创新都是加分项。你做出来的东西都是创新，所以你的分数比研发更容易得到。换个角度讲，运维也是一个能够给人开心的岗位。
谢谢大家！