[关闭]
@ywgx 2017-05-31T02:46:11.000000Z 字数 2840 阅读 4787

企业级一体化运维管控平台

1.png-708.6kB

运维管控平台目标是为了对企业云上或者企业自建私有机房的单网络区域或异地多网络区域(无论是基础网络还是VPC网络)成百上千台主机进行安全高效科学的统一运维和管控

基本使用

1.主页

管理员通过 管理-系统配置-注册, 可以设置允许注册的白名单邮箱或者企业邮箱后缀,确保只允许企业内部职员可以注册登录
主页展现平台广播通知信息,内网入口login,当前账号有权限的机器列表,近期登录login概况,通知消息和报警消息,左侧菜单根据不同角色展现不同,比如权限审批菜单只有运维人员和管理员视图有,更高级的管理,如账号清理,只有管理员视图有
1.png-654.3kB

2.数据-机房总览

网络区域总数,机器总数,应用分组总数以及分布在各个节点的数量,图表展现,同时展现各个应用分组的机器列表含机器配置信息[OS,CPU,MEM]
机房总览.png-237.5kB

3.数据-集群监控

应用分组集群维度,实时展示各个监控数据项,可以方便的设置一个集群的监控阈值,如果一个应用分组有上百台机器,可以分批展现集群监控,可以自定义选择机器对比查看监控
实时监控.png-395.8kB
集群监控.png-429.2kB

4.权限-权限申请

技术人员申请应用分组机器的权限,权限类型(普通或者sudo),权限时长
权限申请.png-242kB

5.权限-权限审批

运维或者管理员人员收到权限申请的系统消息,可以对申请单子审批或者驳回
申请消息.png-369.7kB
权限审批.png-213.3kB

6.登录login,登录业务机器

技术人员提交的权限申请审批通过后,平台即刻调度创建该人员的目标机器账号,然后该人员就可以登录到login,进而登录到业务机器,可以看到login机器对其有权限的机器,非常友好的展现,过期时间,登录快捷方式,以及人员登录login总计
登录login.png-180.2kB

7.审计

运维和管理员有此菜单,清晰的展现哪个网络区域,什么时间,什么人,在哪台机器,执行过什么操作
安全审计.png-432.5kB

8.部署

为了方便企业对主机基础环境的部署,我们设计好各类基础软件环境的安装模版,如Nginx,JDK,Tomcat,Redis等等,相关的部署路径企业可以根据自己的规范路径,方便的自定义,新机器创建后,即可根据需要一键部署基础软件环境
环境部署.png-197.3kB

9.管理

管理员可以发布平台广播通知消息,进行角色赋予(Ops角色),清理账号(人员离职),系统配置(本地私钥有效期,注册白名单等等),设置本地私钥过期时间
管理.png-245.8kB
注册.png-257.2kB

部署设计

这里以企业云上VPC环境作为案例说明:
若企业的主机规划在一个VPC区域,所以我们这里就规划3台机器,总控Central,管控Master,入口Login
1.一体化运维管控平台部署在总控Central机器
2.Central机器管理Master和Login机器,如果有多个网络区域,就是管理各个网络节点的Master和Login,所以这里Master和Login是一个组的概念
3.节点Master机器管理该VPC环境的其他所有业务机器(运维同学可以用master机器上的初始化init.sh脚本在业务机器运行,就完成自动接入到管控平台)
4.总控Central机器的登录权限一般仅仅允许内网登录,而且一般只有技术主管或者运维主管负责管理
5.管控Master机器,只允许有Ops角色的账号通过Login以普通账号登录
6.入口Login机器,只有22端口对外开放,允许职员以这个入口机器登录到内网,可以根据需要设置公网开放或者VPN连接

运维管理

总控Central通过对各个节点Master和Login的调度管理,进而间接管理各个区域所有机器的统一运维管控

总控机器默认会在各个Master机器上初始创建init.sh文件,该脚本功能就是接入业务机器,在业务机器执行的内容就是:
1.打通该业务机器所属的Master机器的RSA key
2.规范机器命名为三段式(应用分组-内网IP-网络区域),如store-10.11.23.5-sz,非常明确的表明这是一台应用分组为store,内网IP为10.11.23.5,在sz机房的一台机器,这种命名方式可以极大的方便技术人员和机器相关的日常交流
3.安装标准的salt-minion,并启动接入到Master机器
4.接入后,Master也会自动下发init.sh 和 rename.sh文件到/opt/sys/目录,方便后续机器重命名

新机器的接入管理过程:
方法1:运维人员可以用Master机器上的init.sh在目标业务机器执行,就可以自动完成业务机器接入到Master,数据自动上报总控Central
方法2:企业可以根据自己需要,完成一台机器的接入后,做成模版镜像机器,以后新购买机器,以此镜像创建,启动后就自动接入总控,无须人工介入

内网安全

无论是云上机房,还是自建机房,为了确保主机内网安全问题,我们通过以下几个方面实施:
1. 规划部署login机器,作为企业内网登录入口机器,登录业务机器必须先登录login机器,然后才能继续登录到自己有权限的业务机器
2. 内网全线机器全可信认证登录,废弃传统的密码认证,每个技术人员独立账号,在平台注册后即可给予创建login机器的个人登录RSA key pairs,通过邮件发送该账号的login登录私钥
3. 悠云创新的安全技术解决方案 RSA key pairs 全线机器无感知更替技术,确保企业内网机器所有技术人员私钥的动态更替
4. 安全审计,确保了内网入口login机器后,通过截获login机器的IO流,实时记录内网所有的登录机器操作记录,同时实时记录每个技术人员的操作到平台安全审计模块,方便管理人员日常查看或者故障追责
5. 关键文件锁定并且实时监控文件状态变化,一旦文件有被修改,即刻微信通知管理员,如监控每台主机的/root/.ssh/authorized_keys公钥文件

备注说明

安全问题,无论如何你永远都无法证明你是你,这也就是为什么安全问题一直没有解的原因

想一想,如何才能登录到企业内网呢?
1.首先要有该企业的内部邮箱,这样才能注册登录
2.如果要登录到业务机器,就必须提交申请,只有管理员审批通过后,才能登录到业务机器
3.如果要在业务机器做sudo操作,需要提交sudo权限的申请,才行
综上只要企业内网职员有一定的安全意识,不把自己的私钥泄漏出去,安全问题是有保障的,如果企业通过VPN,限制了Login机器的登录源IP,这样就更好了,不过根据我们目前这种全RSA key pairs可信认证登录的方案,也是彻底杜绝了暴力破解的安全问题

问与答

1.平台三种账号角色有什么区别?

管理员角色(平台初始安装配置的时候,会根据客户的邮箱设定为有最高权限的管理员账号)
开发角色(默认注册登录的均为普通账号角色)
运维角色(管理员可以在管理-角色赋予,设定某账号为Ops权限,这样该账号就转变为运维角色了,可以在日常工作中协同管理员进行权限的审批,机器基础环境的部署安装,日常工单的处理)

2.如何登录到Master机器进行批量的运维管控?

被赋予Ops权限的账号,平台会为其在Master机器创建有sudo权限的个人账号,其在登录login的时候会有信息提醒,可以很方便到从login登录到master机器,进行运维身份的相关工作

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注