工业 AI 监盘发现异常实践

原创

析言

发布于 2025-12-30 14:30:51

1260

文章被收录于专栏：应用计算应用计算

背景与任务

在工业生产场景中，成百上千个测量仪表7×24小时不间断运行，产生海量数据。这些随时间而产生的数据称为时序数据。时序数据是设备运行状态的“晴雨表”，如果能及时发现异常，就能将设备故障控制在萌芽阶段，避免重大生产事故发生。

所以我们的任务就是及时发现时序数据中的异常。

及时要求时效性高，最好是采集到数据的第一时间就能判断该数据是否异常，比如下图中的第86个点，刚采集到就给出了实时报警。

除了时效性，还要求能发现不同类型的异常，下图是部分常见异常举例：

其中①是值越界，②是变化越界，③是周期缺失，④是二维数据反向变化。

算法设计

工业设备数量庞大，完全依赖人工监控既不现实也不可靠，因此我们需要一种能够自动发现异常的高效方法。

传统的机器学习方法通常依赖大量已标记的异常数据，然而在真实工业场景中，数据规模巨大，人工标注不仅成本高昂，标记质量也难以保证。

当前AI大模型受到广泛关注，容易想到采用大模型来实现异常发现。经过简单测试，预训练的大模型确实具备一定的异常发现能力，但结合到实际应用场景，仍存在很多明显的局限：

1. 大模型大多基于自然语言处理任务训练，并未专门针对异常发现场景进行优化，用于异常发现容易产生较高的“幻觉”，表现极不稳定，误判频发；

2. 提升大模型在异常发现上的准确率，通常需要对其进行微调，这将带来高昂的开发成本，包括大量标注数据、算力资源等，对工程师团队要求也非常高；

3. 大模型推理过程的资源消耗虽然远低于训练，但仍然开销很大，无法适应生产环境的低成本要求。而且运算性能不足，难以实时应对较大规模和较高频率的采样数据。

在综合权衡后，我们选择了自研的无监督学习的数学算法来完成异常检测任务。然而，在缺乏标注数据的情况下，如何定义“异常”呢？

我们的基本思路是：正常运行的生产设备，大部分情况是正常的，发生异常是罕见情况。因此可以这样定义：异常是历史数据中没发生或者少发生的情况。

举个容易理解的例子：A同学平时考60分，有一天突然考了90分，大家一定认为该同学的分数异常了。

之所以认为90分异常是因为历史数据中90分发生的概率低甚至没发生过。如果A同学不断努力，成绩稳步提高65,70,75,80,85，经过一段时间，该同学再考90分的概率就大大提高，异常程度就没那么高甚至可以认为是正常了。

当然，工业场景下情况复杂得多，经常并不能只用简单值（比如成绩）就能发现所有异常，还会用到变化快慢、离散程度等复杂的数学量。

数学方法描述异常过程如下图：

寻找某个数学量，并用历史数据计算该数学量的分布，新数据相对于历史分布的离群程度，就可以用来表征异常程度。

计算数据分布的方法有很多，比较朴素的方法是用历史数据计算出一个范围，把大多数数据框在该范围内，对于新来数据，如果超出该范围，则异常。

比如90分是新数据，异常程度计算过程如下：

时序数据：X=[60,59,61,60,…,62]

数学量：V=X

数据范围：td,tu=box(V)=58,62

新数据：xn+1=90

新数学量：vn+1=xn+1=90

异常程度：pn+1=max(vn+1-tu,td-vn+1,0)/(tu-td)=(90-62)/(62-58)=7

除此之外，发现异常的方法还有概率密度法：

概率分布：g(…)=dense(V)

异常程度：pn+1=g(vn+1,l,h)/θ-1

典型场景

值越界

数据走势图：

横坐标是数据序号，纵坐标是数据取值。

最后一段数据值过小，相较于之前数据没出现过，应该被识别为异常。

示例代码：

范围分布报警结果图：

图(a)中v是数据取值，tu是范围上限，td是范围下限。

图(b)中w是数据异常程度。

概率密度分布报警图：

图(a)中v是数据取值。

图(b)中w是数据异常程度。

变化越界

数据走势图：

相较于其他数据的变化速度，最后几个数据变化过快，需要用变化率这个数学量来发现异常。

示例代码：

范围分布报警结果：

图(a)中v是数据取值。

图(b)中c是变化率，tu是变化率范围上限，td是变化率范围下限

图(c)中w是数据异常程度。

概率密度分布报警结果：

图(a)中v是数据取值。

图(b)中c是变化率。

图(c)中w是数据异常程度。

周期缺失

数据走势图：

相较于其他数据，数据后半段缺失了一个周期凸起，可以用离散程度来发现该异常。

示例代码：

范围分布报警结果

图(a)中v是数据取值。

图(b)中s是变化率，tu是离散程度范围上限，td是离散程度范围下限

图(c)中w是数据异常程度。

概率密度分布报警结果：

图(a)中v是数据取值。

图(b)中s是离散程度。

图(c)中w是数据异常程度。

梯度分布

数据走势图：

数据本来是3个阶梯连续变化的，可是在最后一次变化时，发生了跳变，这是之前没有发生过的，应该被视为异常。

示例代码：

概率密度分布报警结果：

图(a)中v是数据取值。

图(b)中w是数据异常程度。

多维情况

工业生产中有时需要同时监控多块仪表才能发现异常，这时就需要发现多维时间序列的异常。

我们把多维异常分为两类：

1. 综合异常，将多个单维数据的异常合并成一个综合异常。

2. 联合异常，单维正常，但多维联合起来却异常。

综合异常

想把单维数据的异常综合成一个异常程度，最朴素的想法是为每个维度赋予权重，将每个维度的异常程度加权后相加即得到综合异常程度，但权重怎么计算呢？

是经常异常的维度权重高还是不常异常的维度权重高呢，我们可以借鉴 “幸存者偏差”的思想，它是二战时期盟军关于飞机防护提出的，经常异常的维度就像是飞回来的飞机身上满是弹孔的位置（比如机身），后续异常也不会产生多大影响，不常异常的维度就像是没有弹孔的位置（比如引擎），一旦异常就可能严重影响生产。所以应该是不常异常的维度权重高。

综合异常的计算过程如下：

各维度异常度：O=[o1,o2,…,om]

各维度权重：W=[w1,w2,…,wm]，wi是幸存者偏差原理计算出来的。

综合异常度：