论文标题:SMNet: A Novel Compositional Generalization Model for Industrial Robot Multijoint Fault Diagnosis期刊IEEE Internet of Things Journal 中科院一区DOI10.1109/JIOT.2026.3652582作者胡小溪清华大学/北京交通大学, 蒋程至浙江财经大学, 彭丹丹西北工业大学/香港理工大学, 陈祝云广东工业大学/华南理工大学摘要工业互联网场景中机械设备往往会出现机器人多关节同时退化的复合故障但现有研究多聚焦于单关节或低阶组合设定导致模型在真实部署中面临关键难题——组合泛化训练阶段仅覆盖正常/单关节/双关节等简单故障测试阶段必须识别未见过的三关节、四关节等高阶组合故障。为此本文提出 StateMix Network (SMNet)以“保留单关节表征到跨关节组合诊断”为核心策略构建多阶段端到端架构Single-Joint Feature Extraction (SJFE) 提取关节私有特征Attention-Guided Dilated Fusion (AGDF) 通过并行 Cascaded Dilated Convolution Blocks (CDCBs) 实现多尺度融合并结合双路径注意力进行自适应重加权最后采用基于 Mamba 的序列混合器建模长程跨关节依赖。在原位振动数据上基于严格的 train-on-simple / evaluate-on-complex 实验设置实验结果表明 SMNet 在宏平均 Precision/Recall/F1 上整体优于代表性基线尤其在未见的三关节与四关节组合故障上表现更突出消融与敏感性分析进一步验证了各模块的有效性。关键词组合泛化复合故障诊断深度学习振动信号1 引言工业场景下机械设备的关节在高频载荷下长期运行磨损与故障不可避免一旦异常精度下降甚至导致产线停机。现实中诊断仍高度依赖停机人工排查效率低、成本高促使自动化智能诊断成为重要方向。近年来振动诊断从“特征工程 传统分类器”逐步转向端到端深度学习模型直接从多通道时序数据中学习表征并通过 CNN/LSTM、多尺度卷积、Transformer 等结构强化时序与长依赖建模能力。现有方法多默认“单故障”或“低阶组合”设定难以应对真实工况下的多关节同时退化。这带来核心难题——组合泛化训练只见正常/单关节/双关节等简单模式部署却要识别未见的三关节、四关节高阶组合而组合空间指数增长使全覆盖数据采集在工程上不可行。为此我们提出 StateMix Network (SMNet)以“先保留单关节表征再做跨关节组合推理”为主线先用 Single-Joint Feature Extraction (SJFE) 提取各关节私有特征再用 Attention-Guided Dilated Fusion (AGDF) 做多尺度融合与重加权最后通过 Mamba 建模长程跨关节依赖从而将“由简单到复杂”的推断能力固化为端到端模型能力。主要贡献1. 提出 AGDF 颈部结构并行 CDCBs 由输入/输出两侧的 Dual-Path Attention (DPA) 夹持实现对关节原子特征的有效融合与自适应重加权面向复合故障诊断更稳健。2. 将 Mamba 作为本任务的序列混合器高效捕获长程跨关节依赖与 AGDF 协同构成适用于多关节组合诊断的特征处理框架。3. 在原位振动数据上采用严格的 train-on-simple / evaluate-on-complex 组合泛化设置进行系统评估并通过消融与敏感性分析验证各核心模块的独立贡献与工程价值。2 方法2.1 问题定义我们有多关节振动数据集其中输入样本为多通道时序窗口其中J 为关节数M 为每关节传感器轴数T 为窗口长度表示第 j 个关节的多轴信号。标签为多标签故障向量目标是学习映射并在部署时对未见过的高阶组合故障仍能输出可靠预测2.2 总体框架流程如下数据与实验对每个通道进行标准化后输入网络采用严格的 train-on-simple / evaluate-on-complexDatasetA正常 / 单关节 / 双关节训练与测试DatasetB三关节 / 四关节组合泛化测试模型流水线SJFE → AGDF → Mamba Mixer → Head输出每个关节的多标签故障概率。2.3 SJFE为避免过早跨关节融合导致“单关节信息被稀释”SJFE 对每个关节振动信号并行建模先提取关节私有特征。每个关节分支使用 ResCUM 单元并以门控激活 Tanh-Sigmoid-Dropout (TSD) 形成稳定的关节表征2.4 AGDF复合故障需要跨关节“组合模式”。AGDF 的目标是在不冲淡关节私有信息的前提下完成多尺度融合与重加权。拼接Pre-DPA双路径注意力 (CBAM1D CSA)抑制冗余、突出关键证据。CDCB不同 dilation 捕获互补时间尺度拼接形成融合特征。Post-DPA在融合后再次重加权缓解多尺度融合可能引入的尺度/相位偏置输出 AGDF 特征V。2.5 Mamba MixerAGDF 提供局部与中程模式但高阶组合故障通常依赖更长的时序证据与跨关节耦合。SMNet 使用 Mamba 作为序列混合器以线性复杂度建模长程依赖。2.6 Head 与损失分类头输出每个关节的 logits经 Sigmoid 得到多标签概率。训练采用多标签二元交叉熵 (BCE)3 实验与结果3.1 数据集故障覆盖本数据仅研究在 J1–J4 关节出现故障的情况J5、J6 在所有样本中始终正常因此本文不讨论包含 J5/J6 的复合故障。样本构造每个场景通过在原始连续信号中选取起点截取窗口得到样本窗口长度 T 2560每关节 M 3 轴J 6 关节共 18 通道单样本形状为 (2560, 18)每个定义场景生成 4000 个样本保证场景间样本数均衡。组合泛化实验设置 (train-on-simple / evaluate-on-complex)DatasetA正常 单关节 双关节 (用于训练/验证并在简单组合上测试记为 TestA)DatasetB三关节 (TestB3)与四关节 (TestB4)复合故障仅用于组合泛化评估3.2 实验设置硬件/软件Intel Xeon Platinum 8352V (16 vCPUs) NVIDIA RTX 4090 (24GB)Ubuntu 22.04Python 3.12PyTorch 2.5.1CUDA 12.4。训练策略最多 40 epochsAdamW(lr2e-3weight decay1e-4)余弦退火学习率warm-up 预热占总步数 35%以验证集 Macro-F1 选最优权重early-stopping patience 20。3.3 Backbone 设计在复合故障诊断中一个核心工程问题是多尺度时序上下文应当在骨干阶段“提前建模”还是在专门的 neck 阶段“后置融合”。为验证该点我们构建了替代骨干 Multi-Scale Joint Feature Extractor (MSJFE)在每个关节原始数据流上直接使用并行空洞卷积进行多尺度提取随后拼接并由 DPA 自适应重加权同时移除 AGDF 的其余块使整体结构变为 “MSJFE backbone Mamba Head”用于对比本文提出的 “SJFE backbone AGDF neck Mamba Head”。在保持 相同的 Mamba、相同的 Head、相同训练策略的前提下将多尺度算子“前移”到骨干会导致复杂度显著膨胀7.091M vs 0.868M 参数13437.63 vs 426.23 MFLOPs但在所有测试集上性能均下降且在组合泛化测试集TestB3/TestB4上差距更明显。进一步地为隔离“关节独立骨干”这一因素我们构建了三种 shared-backbone 变体 (Shared ResCUM / Shared ResNet / Shared CNN)在六个关节间共享同一特征提取器同时保持 AGDF、Mamba 与 Head 不变。尽管这些模型的参数量与 SJFE 相近甚至更低但在最困难的 TestB4 上的 F1 明显落后表明共享一个通用骨干不足以学习不同关节的差异相反SJFE 的关节并行分支能够更好地保留关节私有表征为后续的跨关节组合推理提供更可靠的“可组合基元”。3.4 敏感性分析为评估关键超参数对组合泛化性能的影响我们对 Mamba mixer 的两项配置Mamba Layers 和 Embedding Dimension进行敏感性分析。对每组配置均按统一训练流程训练完整 SMNet并在 TestB3 与 TestB4 上报告 F1 与宏平均 Recall。3.5 消融实验3.5.1 AGDF 注意力策略两阶段双路径 DPA 的必要性我们首先分析 AGDF neck 中 DPA 的设计。无论将单一路径注意力仅 CBAM1D 或仅 CSA放置在融合前或融合后虽然在 TestB3 上仍可获得较高精度但在 TestB4 上的 F1 明显低于完整 SMNet。这说明面对四关节未见组合时仅依赖单一路径/单阶段重加权难以兼顾“证据选择”与“上下文保留”。进一步地Pre-DPA only / Post-DPA only / No DPA 在 TestB3 上差距有限但在 TestB4 上均显著弱于两阶段 DPA且其参数量与计算量与完整 SMNet 同量级并不存在明显的计算收益。移除多尺度 CDCBs 仅保留 DPADPA only会导致 TestB3/TestB4 明显退化表明多尺度时序上下文是高阶组合诊断的必要条件DPA 不能替代多尺度建模。同时用更简单的 SE 替代 DPA 也无法达到两阶段双路径 DPA 的效果说明本文的 DPA 设计具有更强的重加权能力与稳定性。3.5.2 序列模块消融Mamba 的优势体现在更稳的 Recall除 AGDF 外序列模块决定了模型能否在完整时间窗内整合跨关节证据。我们将 SMNet 中的 Mamba mixer 替换为多种代表性结构 (Transformer、DLinear、FreTS、TimesNet、TCN、LSTM、1DCNN)其余组件保持不变。在相近的参数量与 MFLOPs 下Mamba 在 TestB3/TestB4 上均取得更优的综合表现尤其在更难的 TestB4 上保持更高的 Recall从而带来更高 F1。相对而言一些更“局部”的结构 (如 1DCNN/TCN)更容易出现“高精度、低召回”的形态反映其更可能学习训练集中简单组合的快捷模式遇到未见组合时漏检显著增加。3.6 对比实验我们在统一训练协议下将 SMNet 与多种故障诊断代表模型进行对比包括 WDCNN、TICNN、SRDCNN、CNN-LSTM、MSMCNN 与 MJAR。在简单组合测试 TestA 上SMNet 取得最高的 F1说明其对常规故障模式具有更强的判别能力。更关键的是在组合泛化测试中SMNet 的优势进一步扩大大量基线在 TestB3/TestB4 上呈现“精度接近饱和但召回显著下降”的趋势这意味着模型更倾向于只识别训练中最典型的故障模式而在未见组合上出现系统性漏检相比之下SMNet 能在 TestB4 上维持更高的 Recall从而保持更高的 F1。与最强基线 MJAR 相比SMNet 的改进主要体现在未见组合上的 Recall其结构差异在于 SMNet 使用两阶段双路径 DPA 在融合前后同时实现“选择 保留”的互补重加权并通过 Mamba 进一步整合长程跨关节依赖使弱但关键的关节证据不易在融合与长窗建模中被淹没。4. 结论本文围绕多关节复合故障诊断中的关键难点——组合泛化展开模型训练仅覆盖正常/单关节/双关节等简单故障却需在部署时识别未见过的三关节、四关节高阶组合。为此我们提出SMNet以“先保留关节私有表征再进行跨关节组合推理”为核心设计原则构建了从单关节表征到全局状态推断的递进式诊断流程。