告警


告警与报警的区别? 在SMAP应用监控系统中,告警和报警是有特殊含义的,并不是一个同义词。对所采集的数据做出监控健对象是否健康的判断后,会根据预先定义的5种方式生成告警记录。 告警一般定义为:

  • 严重
  • 危险(含严重)
  • 严重 或 未知
  • 危险(含严重) 或 未知
  • 未知 这些告警记录被送到订阅人时,就形成报警。 简言之,告警是当性能指标超过阈值,系统记录的告警日志。报警是指将告警信息系统消息、邮件或短信等手段通知给相关负责人。

本次新增功能 1 报警策略总览 2 添加报警策略-报警项目:APP整体 3 报警指标:响应时间,崩溃率,HTTP错误率,网络错误率 4 报警策略: 静态阈值设置

功能介绍

警报策略总览

状态解释 报警ALERT:触发报警 告警WARN:触发告警 正常OK :没有达到报警条件 无数据NO DATA:监控的指标没有数据,此时不一定满足报警条件 禁用MUTED:不再提醒

添加报警策略

本次新增功能只有和APP整体相关的警报指标,有崩溃率,网络性能指标和交互性能指标包括:崩溃率,响应时间,HTTP错误率,网络错误率

如果需要设置多项告警,可以在下方选择新增阈值项,然后在新增的阈值中选择需要的告警项,最多添加4项,不可重复选择同一指标。

当您不在需要某个告警项时,可以单击右上方的删除按钮删除该告警项。 中间区域您可以设置告警的各项阈值,完成设置后单击"确定"保存警报策略。

警报指标选项:

响应时间:App整体平均响应时间 崩溃率:App崩溃率(天平均),不支持分组统计 网络错误率:App整体网络错误率 HTTP错误率:App整体HTTP错误率

警报策略默认值:

响应时间 吞吐量 >= 100 警告阈值: 持续 5分钟 大于1000 毫秒 严重阈值: 持续 5分钟 大于 2000 毫秒 吞吐量 >= 100 例外 (即:10cpm <=吞吐量<=100cpm) 警告阈值: 持续 5分钟 大于 500 毫秒 严重阈值: 持续 5分钟 大于 2000 毫秒 崩溃率 吞吐量 >= 100 警告阈值: 持续 5分钟 大于 2‰(千分之) 严重阈值: 持续5分钟 大于 10‰(千分之) HTTP错误率 吞吐量 >= 100 警告阈值: 持续 5分钟 大于 3% 严重阈值: 持续 5分钟 大于 5% 网络错误率 吞吐量 >= 100 警告阈值: 持续 5分钟 大于 3% 严重阈值: 持续 5分钟 大于 5%

设置告警组

点击红框中链接,跳转至OneAlert设置告警组