腾讯云数据库MongoDB监控报警参数和报警方式设置

腾讯云数据库MongoDB 提供服务状态监控和报警功能,本篇主要介绍腾讯云数据库MongoDB的常用报警参数和报警方式的设置方法。

腾讯云数据库MongoDB地址 https://cloud.tencent.com/product/mongodb
腾讯云数据库MongoDB官方最新文档介绍 https://cloud.tencent.com/product/mongodb/getting-started
监控最佳实践

监控查看

查看监控的步骤如下:

  1. 登录腾讯云数据库MongoDB 实例控制台;
  2. 点击对应实例的“管理”按钮,进入实例基本信息;
  3. 点击左侧导航栏的“监控”按钮,进入实例的监控信息;
  4. 选择节点:默认查看Primary节点的监控信息,您也可以选择查看Secondary节点的监控信息;
  5. 查看监控数据:监控页面显示当前监控了实例的报警信息和一些性能参数统计信息,如CPU使用率/内存使用率/磁盘IOPS量/磁盘空间使用率以及数据库操作量等,还可以选择性查看一定时间范围内的主/备节点的参数统计信息。

监控项详解

为了更好地运维腾讯云数据库MongoDB 实例,腾讯云提供了自动监控和报警功能,能监控下列性能参数:

监控参数 说明
CPU使用率 实例CPU的使用率,可作为扩容指示指标
内存使用率 实例的可用内存使用量,可作为扩容指示指标
磁盘空间使用率 实例使用的磁盘容量百分比,可作为扩容指示指标
磁盘空间使用量 实例使用的磁盘容量,可作为扩容指示指标
磁盘IOPS量 每秒进行的磁盘读取或写入操作平均数,IO性能指标
操作量 每秒操作实例的操作次数,业务特征指标:
insert操作
query操作
update操作
getmore操作
delete操作
command操作
连接数 连接到实例的客户端会话数
网络流量 网络连接的吞吐量,业务特征指标

监控项设置详解

点击监控图右上角的展开图标,您可以设置监控的采样周期内的数据统计方式、采样周期和展示监控的总时长。

监控设置参数 说明 设置建议
统计项 每个周期内统计值的计算方法:
平均值、和值、最大值、最小值、样本数
平均值及和值是常用的统计方法
采样周期 每隔一个周期统计一次,按照下面的统计方法计算
一个周期内的监控项数值
可选:1分钟、5分钟、20分钟、1小时
6小时、12小时、1天
一般选择5分钟,如果对数据敏感度要求很高
可以选择1分钟
最近 展示最近多长时间的监控数据
可选1小时、6小时、1天、7天、14天、40天
可以根据需要选择展示时间长度

报警设置最佳实践

报警策略添加步骤

为了更便捷的自动运维实例,并在性能监控项出现异常时自动通知用户,故需要创建报警策略。报警测量能设定监控项阈值和通知方式,当实例环境某个监控项阈值时,自动给用户发送报警信息。

默认情况下,您只需要对Primary节点设置报警策略,当您选择secondary节点再点击报警详情,将对Secondary节点设置报警。

报警策略的添加步骤如下:1. 在实例监控页面,点击“报警详情”,进入报警策略页面;2. 点击“添加策略”,开始对实例创建报警策略;3. 填写策略信息和通知方式,策略信息是选择监控项类型和报警阈值参数,通知方式是填写报警联系对象和报警通知途径,完整填写后点击“提交”后,报警策略就创建成功了。

报警策略中的参数设置详解

创建报警策略中的各参数说明及设置建议:

报警策略创建参数 说明 设置建议
名称 报警策略命名 名称应具有可读性
监控项 监控项类型:
操作项监控:insert、query、delete、update、getmore、command
实例连接数
入口流量
出口流量
磁盘使用率
磁盘使用量
建议优先设置磁盘使用率报警策略
以便及时扩容
避免磁盘打满影响写入。
统计周期 每隔一个周期统计一次,按照下面的统计方法
计算一个周期内的监控项数值
可选:1分钟、5分钟、10分钟、15分钟
一般选择5分钟,如果对数据敏感度要求很高
可以选择1分钟。
统计方法 每个周期内统计值的计算方法:
平均值、和值、最大值、最小值、样本数
平均值及和值是常用的统计方法
阈值 统计项的预设阈值
可设当统计项>、>=、=、<、<=阈值时触发报警
阈值设置参考下文的“报警阈值一般设置”
重复几次后报警 统计值操过阈值的次数连续出现几次后报警 一般可设为3次,如果需要报警具有更高敏感性
可以设置为1次

报警阈值一般设置详解

  • 磁盘使用情况报警设置

    磁盘空间使用率具有相对性的特点,不需要每次扩容后修改报警策略,因此通常选择它作为报警项。也可以根据业务需要设置磁盘空间使用量绝对数值作为报警项。

    磁盘使用率的报警阈值设置为可用磁盘物理空间的80%较为合适。当超过预设红线,应该检查磁盘消耗状况,确定是否由于正常数据业务致使磁盘占用,进一步通过定位故障、删除数据或者扩容升配来满足业务需求。磁盘使用率常用的报警参数如下:

     

  • 连接数报警设置

    在腾讯云数据库MongoDB 实例内,连接数建议设置报警红线指标为75%,如果实例参数频繁越过预设值,应检查工作负载情况或者升级实例配置。

  • 其他参数

    相关参数可根据用户历史数据设定最小值,并设置一个最大阈值,当收到报警信息时及时处理报警,采取对应的应对措施:处理故障或者升配。

报警通知方式设置详解

  • 报警对象:建议填写有腾讯云数据库MongoDB 运维或管理权限的运维人员,以便及时处理报警。
  • 通知情况:一般选择在监控项异常和恢复正常时进行通知;数据不足通知可用于对监控数据断点容忍性较低的情况。
  • 通知方式:可选邮件通知和短信通知,通常短信通知具有更高的时效性。