[关闭]
@ywgx 2017-04-17T15:05:52.000000Z 字数 3425 阅读 5508

悠云 xabcloud.com


简要介绍

悠云致力于解决国内中小企业云上成百上千主机的登录账户权限管理,应用集群实时监控实时报警,基础环境一键部署,安全审计,异地多网络节点统一管控等基础运维管控问题,重点关注企业内网安全以及运维架构设计等关键问题,并独立输出整套安全高效科学的管控平台和解决方案

我们有在公有云企业的工作经历,也深度参与典型的国内一线互联网企业云上运维体系建设,了解一线企业客户对云最痛点的需求,如今我们精心开发的企业家一体化运维管控平台,有着良好的架构设计,跟进国际一线行业发展,更新技术解决方案,与时俱进

企业一体化运维管控平台

早些年云服务才开始,云的使用者主要以个人为主,一些论坛博客站点站长,个位数机器的使用管理,企业用户比较少,但是随着互联网时代的快速发展,如今很多有先见的创新型企业直接将自己的服务部署在云上,成百上千的企业,成百上千的机器在云上,完全不同于早期规模和使用管理方式,企业面对最直接的问题就是,云上庞大的服务器集群的如何科学高效的运维管理?

我们可以预见随着物联网时代的到来,大量的服务计算资源在云上需要管理,时代需要与时俱进与之匹配的可靠平台工具出现,应对企业云上基础运维痛点问题

所谓企业痛点问题其中最核心的问题是,云服务商还是停留在早期的理念,以主机的纬度提供给客户,进行一些基础的管理,监控,而如今企业客户在云上成百上千台机器,客户以应用组维度分配维护管理使用机器,所以云服务商和企业客户对云的使用理解,存在巨大的缝隙,我们需要把客户的实际需求,抽象剥离,取共性,提供可靠稳定科学有效的企业一体化管控平台,服务下沉,以应用组维度展现管控云上资源,解决云上企业刚需的应用运维管理问题,降低企业成本,提高团队开发效率,让企业专注自己核心业务的发展

目前国内各大互联网企业面临几项基础运维问题,业界没有企业级的解决方案:

  • 日益增多的云上主机无法统一管控,异地多网络节点机房,没有统一调度管理
  • 企业内部技术人员众多,没有成熟的权限管理平台,大部分通过传统的一些简易的运维脚本完成内部员工账号的创建,流程混乱,权限只分配不管理,账号易泄露,内网安全堪忧,时刻面临账号被暴力破解的风险
  • 企业应用产品没有成熟易用的应用集群纬度的实时监控,历史监控,实时报警,大部分采用开源的一些监控产品,维护成本非常高,而且难以满足企业内部安全稳定的需求,需要专业的运维工程师维护管理,好的工程师难招,人力成本高
  • 生产内网无有效的安全审计,无法有效的完成故障追责
  • 无有效的批量部署平台,大部分采用一些脚本程序,人工的完成机器部署需求,效率低下且不可靠
  • 无有效的企业内部工单系统,工作交流不方便,影响团队效率

企业一体化管控平台解决方案和主要功能特点

x.jpg-1565kB

  • 基本架构如图,若某企业有三个网络环境,那么每个网络中至少需要有一台master机器接管该网络中的所有服务器,供管理人员进行管控操作;至少需要有一台login机器作为该网络区域的统一登录入口,供开发人员登录该内网,三个网络环境共三台master机器和三台login机器又由总控central机器调度管理,实现通过Web控制台对所管控的各个网络节点成千上万台机器的统一管理。各节点master机器实时海量监控数据收集所管控的业务机器,数据走节点内网通讯,各个节点彼此独立,互不影响
  • 四种安全策略并行,确保真正可信的内网登录入口,关键文件锁定,一旦有异常修改,即可触发报警
  • 权限过期策略,过期提醒,到期清理
  • 人性化使用提示,登录入口跳板机即可展现当前职员拥有权限的机器列表以及过期时间,无须特别记录,个人主页也可以看到自己拥有权限的机器列表以及历史登录时间
  • 安全审计,我们从入口完美截获了登录者的IO流,可以回放每个职员所有操作记录(默认保存30天)
  • 全线生产集群RSA对无感知更替,一旦有人离职即可触发,面对安全要求高的金融企业,我们甚至可以设置每小时全线无感知更替一次
  • 可扩展的模版部署方案,可以非常方便的应对企业内部快速部署问题,如一键部署Java运行环境,Redis单机,Redis主从,Redis集群,Nginx环境等等,当然我们支持异地多机房机器同时部署
  • 一旦接入平台,自动归类分组,规范机器名称,集群监控自动完成,我们连通微信,将报警实时有效发出
  • 平台全终端匹配,无论在哪里,拿出手机即可方便的完成开发人员线上机器权限的审批,线上业务的实时监控了解等等

平台使用者三种角色

  • 开发人员
  • 运维人员
  • 技术主管
    平台初始部署,创建技术主管身份,拥有平台所有管理权限,技术主管可以赋予某职员为Ops身份,一起协同管理审批生产机器权限,处理日常工单,基础环境部署等等
    开发人员日常可以发起自己登录业务机器的权限申请,日常工单,查看自己业务的集群监控等等
    运维人员可以审批权限申请,处理日常工单,查看监控,处理报警等等
    技术主管可以权限赋予,账号删除等等,对平台的使用管理权限

平台有三种消息通知

  • 企业微信消息
  • 企业邮箱信息
  • Web系统信息

目前表象可见的包含五大模块

一.权限管理

  • 私钥分配(跳板机登录权限)
    开发人员登录系统获取分配的私钥,邮件给予,微信通知管理员,什么时间,什么人领取了login入口私钥
    凭借该私钥,获取在职期间由系统规划分配的企业生产机房跳板机的登录权限
  • 权限申请(业务生产机登录权限)
    生产机器权限分两种,普通权限和sudo权限
    职员只需要填写自己需要的应用分组或机器IP即可确认申请
    平台消息通知管理员审批操作
  • 审批管理
    权限的管理策略,默认放行还是需要审批流程,可配置
    管理员可以看到,以时间序列为Key,申请详情为Value的申请记录,否决或批准

二.数据源

  • 实时信息,有新增就更新,有过期就下线
  • 机房总览,应用分组分布情况,各类操作系统占比
  • 分组应用机器列表,数量
  • 机器关键配置信息 CPU,MEM,DISK
  • 三段式机器信息,应用分组-内网IP-机房区域,关键信息一目了然,免去很多不必要的日常沟通

三.安全审计

  • 什么时间,什么人,在哪台机器,执行过什么操作
  • 可以根据时间,用户,机器纬度查询

四.部署模块

  • 单机程序
    可以按应用分组或者一批机器,部署基础环境,如OpenResty,JDK,Tomcat,Flume,PHP等的一键批量部署
  • 集群程序(Redis)
    可以根据所需,自动创建主从或者Cluster方式的集群

五.管理员

  • 广播通知
    通知媒介3种,微信,Web消息,机器motd,百分百确保重大变更信息知会到每一个人和每一台机器
  • 角色赋予
    可以赋予某职员为Ops权限,多人协同管控
  • 清理用户
    离职清理账号
  • 系统配置
    配置权限申请时长,审批类型,本地私钥有效期,生产私钥动态更新周期

企业案例

国内某知名手机厂商,其电商平台部署在阿里云上多个机房,总计约千台主机,而开发人员众多,这些机器如何管理分配给开发人员登录权限是个很大的问题?
如果每台主机开公网,直接给root账号权限,浪费资源,而且内网不安全,而且需要定期去更新密码,一旦人员离职,大范围主机密码的更改,团队之间信息同步等等问题

我们的解决方案: 两个机房各出一台有公网地址的机器,作为各个节点机房login入口机器,平台部署完成,开发人员注册账号,即可创建个人账号登录login主机的本地私钥,然后很方便的在平台去继续申请业务机器的权限

更多的企业对实时监控需求很强,还有基础环境模版化部署等等,大大提高了企业技术团队整体效率

基本使用

1.登录平台主页

包含的信息内网入口IP,当前账号有权限的机器列表,近期登录login历史信息,当前系统消息体系
主页.png-654.3kB

2.数据总览

包含的信息,网络区域或者机房总数,机器总数,应用分组总数以及图表分布概要,可以显示每个应用分组机器数量,机器配置信息[OS,CPU,MEM]
总览.png-237.5kB

3.监控数据

以应用分组维度,展示集群监控信息,方便对比,而且可以具体选择某几台对比
实时监控.png-395.8kB
集群监控.png-429.2kB

4.权限申请

申请某应用分组机器的权限,权限类型,使用时长
分组机器权限申请.png-242kB

5.消息提醒

Ops人员收到系统消息,有开发同学提交了机器权限申请请求
申请消息提醒.png-369.7kB

6.权限审批

Ops人员可以进行审批或者否决处理
权限审批.png-213.3kB

7.登录内网

有权限的机器列表一目了然,什么时间过期,快捷登录方式
登录login.png-180.2kB

8.安全审计

哪个网络区域,什么时间,什么人,在哪台机器,执行过什么操作
安全审计.png-432.5kB

9.环境部署

极易扩展,根据自己需要的软件环境,模版部署,选择需要部署的软件,填写机器,即可部署,方便快捷
一键基础环境部署.png-197.3kB

除了以上表象的几大特点功能,我们做了更多的内部功能,如数据的实时更新,如机器更名后,各个数据的更新处理,还有我们内部可以编程的模版式防火墙端口管理等等

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注