Probabilistic reduced-dimensional vector autoregressive modeling with oblique projections.pdf

阅读这个 PDF，把全部核心信息转成一组信息图。每张图用真实场景(具体的人在做具体的事)+ 流程/对对比,标注，让没读过这个 PDE 的人看完这组图就懂了。生成多张图片

Apr 22, 10:35:38 AM·Expert·22 models

2 of 2

📚 PredVAR 论文信息图组（7 张）

我把这篇 Mo & Qin 发表在《Automatica》180 (2025) 的 PredVAR 论文的全部核心信息，拆成了 7 张配合"真实场景（人物 + 动作）+ 流程/对比 + 标注" 的信息图。文件已导出到 /tmp/infographics/，每张 170 dpi、中文采用文泉驿正黑字体。

🗺️ 图组整体结构

#	文件	场景	讲什么
①	`01_problem.png`	炼化厂控制室凌晨 2:15，工程师盯着 33 路乱跳曲线	问题：为什么需要降维动态建模
②	`02_model.png`	研究员在白板上写公式	模型： $y_k = P v_k + \bar P \bar\varepsilon_k$ 与子空间几何
③	`03_oblique.png`	两位同事拿手电筒分别做正交/斜投影	为什么要斜投影（Theorem 1）
④	`04_algorithm.png`	数据科学家在笔记本上跑 EM 循环	算法流程：Algorithm 1 的 6 个步骤
⑤	`05_lorenz.png`	仿真台旁研究员 + 200 次蒙特卡洛比拼	仿真结果：四种方法箱线图
⑥	`06_dow.png`	工艺工程师 + 数据科学家在控制室复盘	工业案例：Dow 33 变量 → 5 DLV
⑦	`07_tldr.png`	一页总览	三大突破 + 输入→处理→输出

🎯 每张图的核心信息

① 问题场景 `01_problem.png`

真实场景：凌晨 2:15 的炼化厂控制室，工程师（简笔人物，表情沮丧）站在两块显示器前——左屏 33 条五颜六色的传感器曲线乱成一团，右屏弹出红色多点报警。气泡："到底谁是真正的主导因子？"

对比三档方案（右侧）：

❌ 传统全维 VAR：假设 33 维全部"真的在动"（FDD），7 阶 VAR 要估 $7 \times 33 \times 33 \approx 7623$ 个参数 → 参数爆炸、过拟合。PCA/CCA/PLS 虽然能降维，但只能给出静态模型，其推断又假设样本独立——不适合时间序列。
⚠ 早期两步法（Box & Tiao 1977 等）：先降维→再建动态，两步各自最优 ≠ 全局最优；而且 Gao-Tsay、Lam 等经典 DFM 都要求 $\Sigma_{\varepsilon\bar\varepsilon}=0$ 才能求解，这条假设在工程数据里常被打破。
✓ PredVAR（本文）：一体化 + 允许噪声相关 + 闭式潜变量 VAR → 33 维 → 5 个 DLV，参数 7623 → 465。

② 模型结构 `02_model.png`

真实场景：实验室白板前，研究员（简笔人物手持指挥棒指着公式）展示模型。

白板上的关键公式：

y_k = P\,v_k + \bar P\,\bar\varepsilon_k

v_k = \sum_{j=1}^{s} B_j\, v_{k-j} + \varepsilon_k

维度标注：

$y_k \in \mathbb{R}^p$ 高维观测（如 $p=33$ ）
$v_k \in \mathbb{R}^\ell$ 动态潜变量（ $\ell \ll p$ ，如 $\ell=5$ ）🟢
$\bar\varepsilon_k \in \mathbb{R}^{p-\ell}$ 静态噪声 🟠
$P \in \mathbb{R}^{p\times\ell}$ DLV 载荷； $\bar P \in \mathbb{R}^{p\times(p-\ell)}$ 噪声载荷
关键创新：允许 $\Sigma_{\varepsilon\bar\varepsilon} \neq 0$ （比已有工作更宽）

右侧几何图：用两个不正交的椭圆表示「动态子空间 col(P)」和「静态噪声子空间 col(P̄)」，观测点 $y_k$ 被画出两条分解向量 $P v_k$ （绿）和 $\bar P \bar\varepsilon_k$ （橙）——橙色警示框点明："这两个子空间一般不正交 → 需要'斜投影'才能按预测性最优分离"。

③ 为什么要斜投影 `03_oblique.png`

真实场景：两位研究员分别站在左右两块"投影屏"前，各自拿着手电筒（象征投影方向），把同一束散点投到屏幕上。

情形 A（正交投影）❌	情形 B（斜投影）✓
屏幕上的椭圆很大	椭圆被压到最小
动态/静态噪声仍有同期相关	$\Sigma_{\varepsilon\bar\varepsilon'}=0$ ，实现唯一
DLV 预测留下冗余，预测误差大	DLV 创新协方差在 Löwner 序下最小
$N$ = 任意（默认）	$N = \Sigma_{\bar\varepsilon}^{-1}\Sigma_{\varepsilon\bar\varepsilon}^\intercal$

两个面板之间一个紫色箭头标注 "调 N"。这就是论文的 Theorem 1：最小协方差实现 ——给出不等式

\Sigma_{\varepsilon'} \succeq \Sigma_\varepsilon - \Sigma_{\varepsilon\bar\varepsilon}\Sigma_{\bar\varepsilon}^{-1}\Sigma_{\varepsilon\bar\varepsilon}^\intercal

当且仅当 $N = \Sigma_{\bar\varepsilon}^{-1}\Sigma_{\varepsilon\bar\varepsilon}^\intercal$ 时取等号。

④ 算法流程 `04_algorithm.png`

真实场景（左侧面板）：数据科学家（简笔人物）在笔记本电脑前工作，屏幕里跑着伪代码：

黄色提示框："为什么要迭代？最优性条件是非线性的—— $(\{B_j\}, P, R, \Sigma_e)$ 相互耦合，所以分两步 EM 交替求解；工具变量让有偏估计逐步无偏。"

右侧 6 节点流程图：

① 标准化 — 对 $Y^\intercal Y/N$ 做 EVD → $Y^* = YUD^{-1/2}$
② 工具变量初始化 — EVD 于 $Y_s^{*\intercal}\Pi_{Y^*}Y_s^*/N$ → $\hat P^*$ （式 32）
③ E 步：取 DLV — $v_k = \hat P^{*\intercal} y_k^*$ ，估 $\hat B_j = (V^\intercal V)^{-1}V^\intercal V_s$
④ E 步：一步预测 — $\hat v_k = \sum_{j=1}^{s} \hat B_j v_{k-j}$ → 形成 $\hat V_s$
⑤ M 步：精炼投影 — EVD 于 $Y_s^{*\intercal}\Pi_{\hat V_s} Y_s^*/N$ → 更新 $\hat P^*$ （式 33）
⑥ 收敛？ — $\mathrm{tr}(\hat\Sigma_{\hat v})$ 不再增大 → 停止

紫色回环箭头：未收敛则回到步骤 ③。

关键差别标注：⚡ 与 LaVAR-CCA 的差别 —— LaVAR-CCA 基于最小二乘目标对 $\Pi_V$ 做 EVD（用原始 DLV），PredVAR 对 $\Pi_{\hat V_s}$ （用预测值）做 EVD。

⑤ Lorenz 仿真结果 `05_lorenz.png`

真实场景（左侧）：仿真台前研究员（简笔人物）+ 嵌入的 Lorenz 吸引子 x-z 投影小图 + 数据生成说明：

真实 DLV： $v_k \in \mathbb{R}^3$ ，10,000 个样本
通过正交载荷 $P \in \mathbb{R}^{15\times 3}$ 混入
加 12 维零均值高斯噪声（可比方差）
前 7000 训练 / 后 3000 测试

气泡："200 次蒙特卡洛比拼 4 种方法"

右侧箱线图（相似度 $S$ 越高越好， $\ell=3, s=12$ ）：

方法	中位	特征
🟢 PredVAR（本文）	≈ 0.965	最稳最高
🔵 DiCCA（Dong 2020）	≈ 0.955	因 DLV 间只用单变量关系略逊
🟠 LaVAR-CCA（Qin 2022）	≈ 0.955	有离群点 → $$\hat v_{k
🔴 OS（Gao-Tsay 2021）	≈ 0.930	唯一非迭代方法，通常最差但最省算力

⑥ 工业案例 Dow `06_dow.png`

真实场景（左侧）：控制室里两位专家——数据科学家 + 工艺工程师（两个简笔人物）之间放着一块笔记本电脑，屏幕显示 5 条彩色 DLV 时序曲线。

数据集：

Dow Inc. 三座蒸馏塔真实数据，2016-01-01 ~ 06-10，按小时采样
33 个过程变量（温度、压力、ΔP、流量、杂质）
前 4 个月训练 / 后约 1.3 个月测试

建模结果：

PRESS 最优点： $(\ell, s) = (5, 7)$
相对测试误差 0.0177
参数量 465 vs. 全 VAR(7) 的 7623 —— 降一个数量级

DLV 物理解读：

DLV 1：主塔 PC + 吞吐量
DLV 2 ~ 4：副塔 SC 温度/压力
DLV 5：主塔 PC Tails 流量

→ 5 个因子分别对应真实工艺回路，解释性强。

右上 PRESS 曲线：用 $\ell=1\sim 10$ 、 $s \in \{3,5,7,9,11,13\}$ 六条曲线画出，红五角星标注最优点 $(5,7)$ 。

下方模型选择对比表：

选择准则	选出规模	测试相对误差	解读
🟢 PRESS（训练-测试）	$(\ell,s)=(5,7)$	0.0177	参数 465 · 精简
🔴 AIC	$(31, 5)$	0.0172	几乎全维 · 过参数化
🔴 BIC	$(22, 3)$	0.0282	误差反而更大
🟠 HQIC	$(29, 3)$	0.0152	略优但参数膨胀

💡 结论：在本案例中 AIC/BIC/HQIC 倾向过参数化；PRESS 选出 5 个 DLV 即可，精度几乎不损。

⑦ 一页总览 `07_tldr.png`

三大贡献卡片：

1 · 概率框架	2 · 最小协方差实现	3 · 闭式潜变量 VAR
用极大似然同时解出动态/静态子空间	Theorem 1：存在唯一 $N$ 使创新协方差最小	DLV 用自己的过去预测自己
• 一般情形：允许 $\Sigma_{\varepsilon\bar\varepsilon} \neq 0$	• $N=\Sigma_{\bar\varepsilon}^{-1}\Sigma_{\varepsilon\bar\varepsilon}^\intercal$	• 模型紧凑、可解释
• 斜投影 → 最佳可预测性	• 创新与静态噪声正交	• EM = 工具变量迭代精炼（IVR）
• 等价于低秩 VAR（LoRA-VAR / ReDVAR）	• DLV 按"可预测性"非递增排序	• 比一次性方法（OS）更稳更准

横向流程：输入（高维序列 $\{y_k\} \in \mathbb{R}^p$ 、 $\ell$ 、 $s$ ）→ 处理（EM + IVR、斜投影 + EVD）→ DLV 输出（ $\{v_k\} \in \mathbb{R}^\ell$ 、载荷 $P, R$ 、 $B_1\ldots B_s$ ）→ 应用（过程监控 / 故障诊断 / 预测控制）

📌 一句话总结：

在相关噪声下，用一次极大似然就把"该降多少维"和"动态怎么动"一起学出来；在 Lorenz 仿真和 Dow 33 变量真实数据上，都比 LaVAR-CCA / DiCCA / OS 更稳、更准、更省参数。

🧩 把 7 张图串在一起的故事线

"33 根线都在乱跳 → 其实只有 5 个因子在动 → 把动态和静态噪声分开 → 但要斜着分才最干净 → 用 EM + 工具变量交替拟合 → 仿真和真实数据都验证它更稳更准 → 得到一个参数量降一个数量级、解释性更强的模型。"

📂 已生成文件

/tmp/infographics/01_problem.png    (510 KB)/tmp/infographics/02_model.png      (344 KB)/tmp/infographics/03_oblique.png    (278 KB)/tmp/infographics/04_algorithm.png  (323 KB)/tmp/infographics/05_lorenz.png     (477 KB)/tmp/infographics/06_dow.png        (476 KB)/tmp/infographics/07_tldr.png       (356 KB)

/tmp/infographics/01_problem.png    (510 KB)/tmp/infographics/02_model.png      (344 KB)/tmp/infographics/03_oblique.png    (278 KB)/tmp/infographics/04_algorithm.png  (323 KB)/tmp/infographics/05_lorenz.png     (477 KB)/tmp/infographics/06_dow.png        (476 KB)/tmp/infographics/07_tldr.png       (356 KB)

每张 1600×1000 左右，中文字体渲染正常（有少量 bullet/emoji 字符被替换成等价的中点符号 "·"）。所有图均采用统一配色：蓝（主色调）、绿（动态因子）、橙（静态噪声）、紫（精炼步骤）、红（警示/最优点）。

如需改成更卡通/更学术的风格，或追加一张"未来工作（稀疏 + PredVAR）"展望图，告诉我即可。

Apr 22, 10:52:34 AM·16m 56s

Shared by

mikes

📚 PredVAR 论文信息图组（7 张）

🗺️ 图组整体结构

🎯 每张图的核心信息

① 问题场景 01_problem.png

② 模型结构 02_model.png

③ 为什么要斜投影 03_oblique.png

④ 算法流程 04_algorithm.png

⑤ Lorenz 仿真结果 05_lorenz.png

⑥ 工业案例 Dow 06_dow.png

⑦ 一页总览 07_tldr.png