@tony-yin 2017-08-20T08:44:58.000000Z 字数 1701 阅读 1004

Ptbus disk-mon daemon

Magicloud

Daemon相关知识了解

MCS3DiskMonitor Daemon使用

pid文件路径： /var/run/mcs3-smart-monitor.pid
daemon所在位置: /etc/init.d/
log打印位置：/var/log/mccloudstor/mcs3-disk-mon.log
操作方式：
- service mcs3-smart-monitor start
- service mcs3-smart-monitor stop
- service mcs3-smart-monitor restart

改动daemon相关代码，需restart daemon才可以生效

MCS3DiskMonitor Daemon process

1. 单位时间避免邮件重复发送：通过声明一个全局变量send_email_time, 记录当前时间的一个小时的时间，一旦发送邮件立即更新该变量为当前时间

sent_mail_time = datetime.datetime.now() - datetime.timedelta(0,3600) # 1 hour
def send_disk_status_notification(disk_status):
    global sent_mail_time
    now = datetime.datetime.now()
    if now < sent_mail_time + datetime.timedelta(0,3600):
        logger.info("Notification sent within one hour before. System will not send again.")
        return
            host = socket.gethostname()
    title = "Host {} Disk Health Status Warning!".format(host)
    message = disk_status
    try:
        utils.send_notification(title, message)
        sent_mail_time = datetime.datetime.now()
    except Exception as e:
        logger.error(str(e))

2. 执行命令报错影响其他代码的执行，有以下几处命令执行：

line48:

output = utils.do_cmd("zpool status|grep state", force=True)

line71~75

    VDSTATE1 = do_cmd(MEGACLI_BIN + " -cfgdsply -aALL -NoLog | grep State") 
    VDSTATE2 = do_cmd(MEGACLI_BIN + " -AdpAllInfo -aALL -NoLog | grep Degraded")
    VDSTATE3 = do_cmd(MEGACLI_BIN + " -AdpAllInfo -aALL -NoLog | grep Offline")
    PDSTATE1 = do_cmd(MEGACLI_BIN + " -AdpAllInfo -aALL -NoLog | grep \"Critical Disks\"")
    PDSTATE2 = do_cmd(MEGACLI_BIN + " -AdpAllInfo -aALL -NoLog | grep \"Failed Disks\"")

暂时处理方法：在这些方法的外面单独包一层try catch

3. SSD Disk信息获取

获取健康寿命

smartctl -a -d megaraid,{} {}|grep 'Media_Wearout_Indicator'

获取磁盘序列号

smartctl -a -d megaraid,{} {}|grep 'Serial Number'

判断是否为SSD Disk：如果为1则为机械硬盘，如果为0则为SSD Disk

cat /sys/block/{}/queue/rotational  // param such as sda or sdb etc

内容目录

- - API 1
  - Report API
- - Article 13
  - Daily Article Vol11(2019/1/1 ~ 2018/3/31)
  - Article Plan
  - Daily Article Vol11(2018/10/1 ~ 2018/12/31)
  - Daily Article Vol10(2018/9/1 ~ 2018/9/30)
  - Daily Article Vol9(2018/8/1 ~ 2018/8/31)
  - Daily Article Vol8(2018/7/1 ~ 2018/7/31)
  - Daily Article Vol7(2018/6/1 ~ 2018/6/30)
  - Daily Article Vol6(2018/5/1 ~ 2018/5/31)
  - Daily Article Vol5(2018/4/1 ~ 2018/4/30)
  - Daily Article Vol4(2018/3/1 ~ 2018/3/31)
  - Daily Article Vol3(2018/2/1 ~ 2018/2/28)
  - Daily Article Vol2(2018/1/1 ~ 2018/1/31)
  - Daily Article Vol1(2017/11/15 ~ 2017/12/31)
- - C15000 1
  - FTP 修改及删除逻辑
- - CAS 1
  - Django CAS Token 解决方案
- - CG20 1
  - CG20 User Scene
- - Celery 1
  - Celery Demo
- - Ceph 14
  - Ctdb Rados（二）：多场景断网高可用
  - Ctdb Rados方式导致All Banned的问题
  - python连接nas服务进行读写（nfs、cifs、ftp）
  - Ceph Command
  - 实现RBD导出NFS高可用（二）：提供多虚拟IP访问
  - 利用Raid卡工具获取逻辑盘是否为SSD
  - Ceph pool
  - Ceph故障修复记录
  - 通过 Keepalived 实现 Ceph RBD 的高可用
  - Cephx实战演练
  - Ceph 编译（Giant版本）
  - Ceph RGW 安装和创建
  - 通过 ganesha-nfs 将 Ceph 导出为 NFS（Luminous）
  - Osd创建和删除全过程
- - Ctdb 2
  - Ctdb Rados（二）：多场景断网高可用
  - Ctdb Rados方式导致All Banned的问题
- - Design 2
  - Preset Condition Design
  - History Record Design
- - Disk 2
  - 块设备持久化命名和多路径
  - Disk Common API Design
- - Django 1
  - Django CAS Token 解决方案
- - EEAP 2
  - 工程认证平台-毕业要求管理优化 API List
  - EEAP所有页面及功能需求点
- - ES 4
  - ES告警详解之Sentinl
  - ES告警详解之ElastAlert
  - ES 监控、告警
  - ELK + Beats 日志分析
- - Filesystem 3
  - 译：一切皆文件
  - 译：Linux 文件系统介绍
  - ext4lazyinit
- - Geektime 1
  - 极客时间
- - HA 3
  - 利用软 RAID 实现系统盘高可用
  - 实现RBD导出NFS高可用（二）：提供多虚拟IP访问
  - 通过 Keepalived 实现 Ceph RBD 的高可用
- - Interview 3
  - 面试仓库
  - 2018面试记
  - Interview 2018
- - Linux 6
  - 软 RAID 详解
  - Centos7系统安装设置gpt分区
  - 如何避免 Cronjob 重复运行
  - 为什么 crontab 不执行
  - 译：一切皆文件
  - LVM扩容
- - Magicloud 13
  - Magicloud Work List
  - Manual create and enable osd script
  - 使用NFS挂载RBD
  - Magicloud Sharing
  - Enable Osd Profile Script
  - 清空分区和创建分区脚本
  - 硬盘拔插现象记录
  - Linux udev
  - Magicloud Front And Back End Routing
  - Osd Disable And Enable
  - Ptbus disk-mon daemon
  - Osd hot swap
  - Network Down Alert
- - Megacli 1
  - Disk Common API Design
- - Megaraid 1
  - Megaraid磁盘定位
- - Moodle 1
  - Moodle Local 插件讲解
- - NAS 1
  - TFTP
- - NFS 2
  - 通过 ganesha-nfs 将 Ceph 导出为 NFS（Luminous）
  - 使用NFS挂载RBD
- - Nas 1
  - python连接nas服务进行读写（nfs、cifs、ftp）
- - Oracle 3
  - Oracle Linux And Oracle Database 13g R2 Intsallation
  - Oracle Insert Script
  - Python连接Oracle
- - Osd 1
  - Manual create and enable osd script
- - POC 1
  - 人脸识别 POC
- - Python 2
  - Python Snack 最佳实践
  - Python连接Oracle
- - RAID 2
  - 利用软 RAID 实现系统盘高可用
  - 软 RAID 详解
- - RBD 2
  - 通过 Keepalived 实现 Ceph RBD 的高可用
  - 使用NFS挂载RBD
- - RGW 1
  - Ceph RGW 安装和创建
- - Raid卡 1
  - 利用Raid卡工具获取逻辑盘是否为SSD
- - Record 2
  - Record
  - Record（2018）
- - Resource 1
  - Oracle Database Backup/Recovery in WeBackup
- - Script 4
  - scp免交互式和ssh免交互式脚本
  - Manual create and enable osd script
  - Enable Osd Profile Script
  - 清空分区和创建分区脚本
- - SegmentFault 2
  - SF讲堂：前端工程师应该掌握的网络知识
  - SF讲堂：PHP 进阶之路 - 亿级 pv 网站架构实战之性能压榨
- - Sharing 1
  - Magicloud Sharing
- - Storage 1
  - Storage Study
- - Test 3
  - 硬件环境测试环境模拟
  - 移动性能测试方案
  - 中国移动测试
- - Todo 1
  - Todo List
- - Uniswdc 1
  - Uniswdc manual
- - blog 1
  - blog 迁移
- - kylin 1
  - kylin 适配
- - neovim 1
  - neovim faq
- - php 2
  - PHPExcel大法
  - Laravel入门
- - vim 2
  - Neovim python-mode
  - VIM 快捷键
- - 产品 1
  - 如何做好一个产品
- - 假期 1
  - 国庆小规划
- - 前端 2
  - JS判断对象是否为空
  - Webpack2的那些事
- - 博客 1
  - 博客主题 Shadow
- - 学习 5
  - 国庆小规划
  - Daily Task
  - 学习感悟
  - 2017 目标
  - 2017学习成果
- - 性能优化 1
  - Python Profilers
- - 故障修复 2
  - Issue Solution：集群节点和托管IP节点显示集群状态不一致
  - Ceph故障修复记录
- - 新人 1
  - 培养新人计划
- - 生活 1
  - 国庆小规划
- - 翻译 1
  - 译：Linux 文件系统介绍
- - 阅读 4
  - 阅读感悟：《白夜行》
  - 阅读感悟：Ceph Cookbook
  - 阅读感悟：Ceph分布式存储学习指南
  - 阅读感悟：《Python编程快速上手---让繁琐工作自动化》
- - 未分类 3
  - 监控方案
  - 监控
  - Enable OSD
- 以下【标签】将用于标记这篇文稿：

添加新批注

在作者公开此批注前，只有你和作者可见。

私有
公开
删除

回复批注