出海技术挑战——Lalamove智能告警降噪

前言

告警监控作为技术团队保障服务与业务稳定性的核心防线,其重要性不仅体现在对潜在风险的实时感知与快速响应上,更是构建高可用系统、提升用户体验的关键基石。因此面对快速拓展的海外市场和高速迭代的业务模式,如何在有限的人力资源下高效保障服务稳定性成为研发团队日常工作中的重要挑战。本文将重点介绍监控告警在国际化业务中的一些实践。

为什么要做?

什么是告警?

在现代化的互联网架构中,告警是监控系统中最为重要的一部分,可以帮助研发人员及时发现并解决问题,确保服务的可用性和稳定性。

什么是告警噪音?

监控或报警系统中因误报、重复告警或配置不当导致的冗余信息。它们不会帮助研发定位问题,反而会淹没关键告警,导致研发人员”告警疲劳”。常见原因有灵敏度设置过高、监控配置不当等。

现状及痛点

基于规则的告警(同环比)

  • 基于市场、城市、车型、领域的告警配置高达200+
  • 业务受天气、节假日、特殊事件影响大,非常容易击穿同步比阈值,从而触发告警

2024全年 P0 告警次数 7000+

Top reasons (告警次数最多的30天),3097次,约占全年的50%。

节假日:1922次,占比 62%

特殊天气:577次,占比 30%

  • 工作量大、效率低
  • 24小时触发

降噪方案

  • 规则优化: 如调整灵敏度,过滤非紧急告警等。
  • **智能算法:**基于历史数据,采用机器学习模型预测当前状态,从而避免静态规则导致的不准确性。

解法一:基于规则优化

优点 :无需开发,基于monitor告警能力,调整阈值

缺点 :

  1. 告警配置多,需要给每个市场单独配置告警
  2. 阈值高度依赖研发经验,阈值固定
  3. 随着业务发展,需要不断的维护。

解法二:基于智能算法-动态阈值

优点:

  1. 自动感知工作日、周末、节假日、特殊天气等情况
  2. 阈值精确
  3. 理论上一条告警配置就可以覆盖所有市场

缺点:

  1. 技术门槛高
  2. 数据不可解释性以及预测准确度问题。

智能算法技术原理

训练单量预测模型-时间序列预测

基于历史数据以及机器学习技术训练Lalamove单量预测模型,结合实时订单量,天气,节假日等信息,预测接下来一个10分钟的最低订单量。以此来区分固定阈值无法判断的正常波动。

整体架构

数据流

关键实现

特征工程

问题设定

  • 我们把订单波动区域范围的预测看作历史订单的时间序列预测问题,透过机器学习模型,根据某一 历史订单流量 情况下,预测 未来最大/最小可能出现的订单波动 ,作为告警阈值。

数据来源

  • 历史订单数据
  • 全球节假日数据
  • 全球天气数据

场景一:节假日

  • 订单数量异常下降,主要体现在节假日期间
  • 订单数量在周维度会出现周期性的波动

特征编码

1.如何让一个机器学习模型在感知上区分以下两种情况?

  • 情人节与儿童节对订单量影响较小
  • 春节对订单量影响较大

我们的选择是 目标编码(Target Encoding)。

通过历史数据,计算某一个节假日在各个年度对应的订单水位取平均值,将其作为新的特征。

例如:中秋节日订单每一年皆处于全年日订单量约20%的水位。可用该均值作为编码。

2.目标编码的优势

  • 更直接反映节假日对业务的真实影响
  • 单个特征能够涵盖各种特殊事件(节假日/疫情/天气)

场景二:天气

1.经验假设

根据我们的业务经验来看,极端天气对订单影响非常大,例如东南亚地区多发台风,单量也仅此出现大幅度降低。

因此,我们假设极端天气对订单有直接的关系,而进一步假设降雨量,风速对订单量有影响。

2.验证假设

选取案例进行验证- 菲律宾2024年7月23日台风-格美

由上图我们发现除了降雨量,风速有影响外,气压、阵风在这个场景中也出现了共振。

3.修正假设

风速/气压/降雨量/阵风等信息能够综合判断出极端天气

4.验证普遍性

模型训练

分位数回归LGBM (决策树模型)

LGBM (LightGBM)是一种高效的梯度提升决策树算法,适用于大规模数据的回归和分类任务。

百分位数回归(QuantileRegression)通过预测目标变量的不同同分位数(而不仅仅是均值),能够更全面地反映数据

的分布情况。应用该方法,可以根据历史订单数据,预测订单量在不同置信区间下的动态阈值。

模型比较

工程链路

降噪服务

有了模型预测值,为什么还要降噪服务?

  1. 模型误差率 :在模型的训练上,我们追求高精准度,从上面模型准确率的统计数据来看,整体能达到94%,但仍有6%,节假日也有近20%的误差率。但对于线上告警系统来说,就仍然有几率出现噪音。如下图所示,预测值会在实际值上下小范围波动。
  1. 模型系统的稳定性 :需要考虑系统故障时候的降级兜底能力。
  2. 低流量市场、低峰期,订单数据波动较大,模型预测效果不可用。

降噪服务能力设计

  • 数据查询:提供给外部监控平台阈值查询的能力。
  • 数据校验:对模型预测结果进行有效性校验。防止出现连续时间段的偏差值过大。
  • 数据兜底:如果模型没有产生预测值,需要兜底降级到固定配置或者前一时刻的值。
  • 数据聚合:对城市、车型、市场数据进行聚合,供不同告警配置使用。
  • 数据缓冲:对模型产生的值进行buff调节,进行容错处理。
  • 时段感知:感知高低峰期,对模型预测值进行干预。

阈值反馈调整机制

本次采用模型参数微调和降噪服务数据缓冲相结合的方式。

参数微调:通过不断调整模型参数,提高预测数据准确度。

数据缓冲:通过观测业务特征、对不同市场添加buff来自定义阈值灵敏度。

效果展示

工作日和周末

最低预测值平均基本是实际值的80%左右,而同环比下限固定值平均基本是实际值的70%左右,下限阈值准确度提值升了约10%,最高预测值平均基本是实际值的130%左右,同环比上限固定值平均基本是实际值的150%左右,上限阈准确度提升了约20%。

节假日 :中国香港重阳节

突发场景/事件-台风 2025-11-09 菲律宾台风

总结

智能告警降噪通过机器学习技术,实现了从被动响应到主动防御的跨越,成为保障业务稳定性的核心工具。 未来趋势包括强化模型健壮性、优化多时区适配及探索生成式AI在告警分析中的应用。 目前智能告警降噪机制已经运行在了Lalamove的核心交易、计价领域,实现了噪音80%的下降。大大减轻了值班人员的工作压力。


原文链接:https://juejin.cn/post/7587596841875111970