📚 PredVAR 论文信息图组(7 张)
我把这篇 Mo & Qin 发表在《Automatica》180 (2025) 的 PredVAR 论文的全部核心信息,拆成了 7 张配合"真实场景(人物 + 动作)+ 流程/对比 + 标注" 的信息图。文件已导出到 /tmp/infographics/,每张 170 dpi、中文采用文泉驿正黑字体。
🗺️ 图组整体结构
🎯 每张图的核心信息
① 问题场景 01_problem.png
真实场景:凌晨 2:15 的炼化厂控制室,工程师(简笔人物,表情沮丧)站在两块显示器前——左屏 33 条五颜六色的传感器曲线乱成一团,右屏弹出红色多点报警。气泡:"到底谁是真正的主导因子?"
对比三档方案(右侧):
- ❌ 传统全维 VAR:假设 33 维全部"真的在动"(FDD),7 阶 VAR 要估 个参数 → 参数爆炸、过拟合。PCA/CCA/PLS 虽然能降维,但只能给出静态模型,其推断又假设样本独立——不适合时间序列。
- ⚠ 早期两步法(Box & Tiao 1977 等):先降维→再建动态,两步各自最优 ≠ 全局最优;而且 Gao-Tsay、Lam 等经典 DFM 都要求 才能求解,这条假设在工程数据里常被打破。
- ✓ PredVAR(本文):一体化 + 允许噪声相关 + 闭式潜变量 VAR → 33 维 → 5 个 DLV,参数 7623 → 465。
② 模型结构 02_model.png
真实场景:实验室白板前,研究员(简笔人物手持指挥棒指着公式)展示模型。
白板上的关键公式:
维度标注:
- 高维观测(如 )
- 动态潜变量(,如 )🟢
- 静态噪声 🟠
- DLV 载荷; 噪声载荷
- 关键创新:允许 (比已有工作更宽)
右侧几何图:用两个不正交的椭圆表示「动态子空间 col(P)」和「静态噪声子空间 col(P̄)」,观测点 被画出两条分解向量 (绿)和 (橙)——橙色警示框点明:"这两个子空间一般不正交 → 需要'斜投影'才能按预测性最优分离"。
③ 为什么要斜投影 03_oblique.png
真实场景:两位研究员分别站在左右两块"投影屏"前,各自拿着手电筒(象征投影方向),把同一束散点投到屏幕上。
两个面板之间一个紫色箭头标注 "调 N"。这就是论文的 Theorem 1:最小协方差实现 ——给出不等式
当且仅当 时取等号。
④ 算法流程 04_algorithm.png
真实场景(左侧面板):数据科学家(简笔人物)在笔记本电脑前工作,屏幕里跑着伪代码:
黄色提示框:"为什么要迭代?最优性条件是非线性的—— 相互耦合,所以分两步 EM 交替求解;工具变量让有偏估计逐步无偏。"
右侧 6 节点流程图:
- ① 标准化 — 对 做 EVD →
- ② 工具变量初始化 — EVD 于 → (式 32)
- ③ E 步:取 DLV — ,估
- ④ E 步:一步预测 — → 形成
- ⑤ M 步:精炼投影 — EVD 于 → 更新 (式 33)
- ⑥ 收敛? — 不再增大 → 停止
紫色回环箭头:未收敛则回到步骤 ③。
关键差别标注:⚡ 与 LaVAR-CCA 的差别 —— LaVAR-CCA 基于最小二乘目标对 做 EVD(用原始 DLV),PredVAR 对 (用预测值)做 EVD。
⑤ Lorenz 仿真结果 05_lorenz.png
真实场景(左侧):仿真台前研究员(简笔人物)+ 嵌入的 Lorenz 吸引子 x-z 投影小图 + 数据生成说明:
- 真实 DLV:,10,000 个样本
- 通过正交载荷 混入
- 加 12 维零均值高斯噪声(可比方差)
- 前 7000 训练 / 后 3000 测试
气泡:"200 次蒙特卡洛比拼 4 种方法"
右侧箱线图(相似度 越高越好,):
⑥ 工业案例 Dow 06_dow.png
真实场景(左侧):控制室里两位专家——数据科学家 + 工艺工程师(两个简笔人物)之间放着一块笔记本电脑,屏幕显示 5 条彩色 DLV 时序曲线。
数据集:
- Dow Inc. 三座蒸馏塔真实数据,2016-01-01 ~ 06-10,按小时采样
- 33 个过程变量(温度、压力、ΔP、流量、杂质)
- 前 4 个月训练 / 后约 1.3 个月测试
建模结果:
- PRESS 最优点:
- 相对测试误差 0.0177
- 参数量 465 vs. 全 VAR(7) 的 7623 —— 降一个数量级
DLV 物理解读:
- DLV 1:主塔 PC + 吞吐量
- DLV 2 ~ 4:副塔 SC 温度/压力
- DLV 5:主塔 PC Tails 流量
→ 5 个因子分别对应真实工艺回路,解释性强。
右上 PRESS 曲线:用 、 六条曲线画出,红五角星标注最优点 。
下方模型选择对比表:
💡 结论:在本案例中 AIC/BIC/HQIC 倾向过参数化;PRESS 选出 5 个 DLV 即可,精度几乎不损。
⑦ 一页总览 07_tldr.png
三大贡献卡片:
横向流程: 输入(高维序列 、、)→ 处理(EM + IVR、斜投影 + EVD)→ DLV 输出(、载荷 、)→ 应用(过程监控 / 故障诊断 / 预测控制)
📌 一句话总结:
在相关噪声下,用一次极大似然就把"该降多少维"和"动态怎么动"一起学出来;在 Lorenz 仿真和 Dow 33 变量真实数据上,都比 LaVAR-CCA / DiCCA / OS 更稳、更准、更省参数。
🧩 把 7 张图串在一起的故事线
"33 根线都在乱跳 → 其实只有 5 个因子在动 → 把动态和静态噪声分开 → 但要斜着分才最干净 → 用 EM + 工具变量交替拟合 → 仿真和真实数据都验证它更稳更准 → 得到一个参数量降一个数量级、解释性更强的模型。"
📂 已生成文件
每张 1600×1000 左右,中文字体渲染正常(有少量 bullet/emoji 字符被替换成等价的中点符号 "·")。所有图均采用统一配色:蓝(主色调)、绿(动态因子)、橙(静态噪声)、紫(精炼步骤)、红(警示/最优点)。
如需改成更卡通/更学术的风格,或追加一张"未来工作(稀疏 + PredVAR)"展望图,告诉我即可。