LLM 在时间序列中的应用综述

Source Metadata

dataSource: Zotero collection LLM/FoundationModels
dataSource url: 当前命令输出未提供 canonical collection URI；本次综述基于 collection key P5WKAC5Y [需确认]
coverage summary:

指标	数值	说明
count	114	collection 内全部条目
fulltext_count	0	当前环境 `pdf_backend.available=false`，本次未形成 `fulltext` 证据
metadata_only_count	114	主体分析基于 `metadata+abstract`
annotations_count	0	当前环境下未稳定提取 `annotations`
notes_count	91	通过 `zot --json item get <ITEM_KEY>` 统计到带 `existing notes` 的论文数

本综述是一份 broad review。由于当前环境无法稳定抽取 fulltext，所以多数判断来自 metadata+abstract，并以 existing notes 作为补充证据。凡是涉及强因果判断、严格 SOTA 归因、或真实工业效果外推的结论，均应视为证据受限；相关表述在必要时标记为 [需确认]。

背景与当前状态

这个 collection 展现出一条相当清晰的演化主线：2024 年的核心任务是把通用语言模型迁移到时序预测场景，主要手段包括 reprogramming、prompt-based adaptation、cross-modal alignment、retrieval augmentation，以及 patch/token 级表示变换；与此同时，native time-series foundation model 也开始快速成形。到了 2025-2026 年，研究重心进一步扩展到 multimodal reasoning、time-series agent、benchmark 治理、以及工业垂域落地。[Jin, 2024, GNTDNEUI] [Liu, 2024, 5XCFMRIS] [Ansari, 2024, 3WJZAR2B] [Shi, 2024, E3RMDSXY] [Goswami, 2024, ANF55ZAR] [Liu, 2026, PC45HAI6]

从任务结构看，forecasting 仍然是绝对主轴，classification、QA、reasoning、agent workflow 和 industrial orchestration 仍属于快速增长但尚未完全稳定的支线。换句话说，领域已经从“LLM 能不能做时序预测”转向“什么样的时间序列基础模型更通用、更可扩展、更可解释，以及 reasoning 是否真的带来稳定增益”。[Tan, 2024, TGW8IKBF] [Li, 2024, NMGEYFXY] [Li, 2025, 4A7VQ9KI] [Liu, 2025, 2H6GBXU3] [Ye, 2025, GS84W4SF]

核心方法演进

阶段	主要方法	代表论文	这一阶段解决的问题	当前局限
LLM 再编程阶段	把数值序列映射为 token/prompt，再借用通用 LLM 的先验	[Jin, 2024, GNTDNEUI], [Liu, 2024, 5XCFMRIS], [Tang, 2025, C6DH7KKX]	快速验证 LLM 是否能迁移到 forecasting	对时序归纳偏置弱，常需要额外对齐模块；泛化机制仍偏经验性 `[需确认]`
原生 TSFM 阶段	decoder-only、encoder-based、MoE、long-context、serial scaling	[Ansari, 2024, 3WJZAR2B], [Shi, 2024, E3RMDSXY], [Goswami, 2024, ANF55ZAR], [Xiao, 2025, 6WFWZ84E], [Liu, 2026, PC45HAI6]	建立专门面向 time series 的预训练范式与 scaling 路线	数据质量、任务统一性和评测协议仍然制约结论可比性
多模态扩展阶段	文本、图像、metadata、paired text 与时序联合建模	[Li, 2025, 9EER2W65], [Wang, 2024, F2ISE43Z], [Wu, 2025, GJI6A654], [Wang, 2025, GQ3FPJYV]	引入外部语义、场景上下文和 domain knowledge	多模态增益高度依赖对齐质量与数据构造，稳定性仍需更多验证 `[需确认]`
Reasoning / Agent 阶段	slow-thinking、R1-style reasoning、TS QA、tool-augmented agents	[Liu, 2025, 2H6GBXU3], [Zhang, 2025, EDNTT2WX], [Guan, 2026, F6Z5YJ9B], [Zhao, 2025, X8EVUCD7], [Ye, 2025, GS84W4SF]	让模型从“预测器”变成“时间推理器/分析器”	benchmark 与真实任务之间是否一致、reasoning 是否稳定增益，仍然存在争议
工业落地阶段	process industry foundation model、small-large collaboration、domain agent	[Ren, 2025, C4RMX6WL], [Ren, 2025, IQ2AIFVZ], [Wang, 2025, 9WTUALLC], [Wang, 2025, VNFDCIHS], [陈致蓬, 2025, EGUTY2KE]	把 foundation model 接到流程工业、能源、钢铁等具体场景	工业效果多来自高层描述与场景宣称，跨场景可复现性仍需 `fulltext` 级验证 `[需确认]`

从方法史角度看，2024 年的共识更像是在探索“如何把 LLM 用起来”；而 2025-2026 年开始形成另一种共识：真正有竞争力的系统往往需要时间序列原生结构、任务统一预训练、或者显式的 reasoning/agent pipeline，而不是只靠把数字塞进通用 LLM。[Jin, 2024, GNTDNEUI] [Ansari, 2024, 3WJZAR2B] [Shi, 2024, E3RMDSXY] [Liu, 2026, PC45HAI6] [Guan, 2026, F6Z5YJ9B]

关键发现与结果

1. Forecasting 仍然是评价中心

collection 中绝大多数论文仍然把 forecasting 作为主任务，说明该领域的“基础模型”叙事仍以预测性能为核心，而不是以开放式时序理解为核心。像 Chronos、Time-MoE、MOMENT、TimeFound、Timer-S1 这样的工作都把统一 forecasting 作为主要展示窗口，这让 forecasting 成为目前最成熟、最可比较的主战场。[Ansari, 2024, 3WJZAR2B] [Shi, 2024, E3RMDSXY] [Goswami, 2024, ANF55ZAR] [Xiao, 2025, 6WFWZ84E] [Liu, 2026, PC45HAI6]

2. “直接复用 LLM” 正在让位于 “时间序列原生基础模型”

Time-LLM、CALF、LLM-PS、T-LLM 这一线证明了通用 LLM 经过结构重编程、蒸馏或对齐后，确实可以在时序任务上取得竞争力；但同时，Chronos、MOMENT、Time-MoE、Timer-S1、TimeFound 这一线说明，原生 TSFM 似乎更容易形成可扩展的数据-模型-训练范式闭环。[Jin, 2024, GNTDNEUI] [Liu, 2024, 5XCFMRIS] [Tang, 2025, C6DH7KKX] [Guo, 2026, EMKUFPMT] [Ansari, 2024, 3WJZAR2B] [Goswami, 2024, ANF55ZAR] [Shi, 2024, E3RMDSXY] [Liu, 2026, PC45HAI6] [Xiao, 2025, 6WFWZ84E]

这意味着领域的核心问题已经不是“LLM 是否可用”，而是“什么时候该适配通用 LLM，什么时候应该直接训练时间序列原生模型”。仅从当前 metadata+abstract 证据看，native TSFM 在统一预训练、长上下文建模和 scaling narrative 上更完整；而 LLM-based 方法在跨模态解释、上下文融合和 reasoning 接口上更灵活。[Tan, 2024, TGW8IKBF] [Cheng, 2025, 4752UGGC] [Liu, 2025, 2H6GBXU3] [Ye, 2025, GS84W4SF] [需确认]

3. 多模态不是点缀，而是把外部知识引入时序建模的关键接口

多篇论文都在试图把文本、视觉或 metadata 作为上下文变量引入时间序列预测或理解。Language in the Flow of Time 把 paired texts 看作辅助时序变量；ChatTime、Aurora、Time-VLM、ITFormer 则把多模态输入进一步推向统一 foundation model 或 QA/forecast 框架。这说明“数值序列本身不足以承载全部场景知识”已经成为越来越强的共识。[Li, 2025, 9EER2W65] [Wang, 2024, F2ISE43Z] [Zhong, 2025, J36ULJXY] [Wu, 2025, GJI6A654] [Wang, 2025, GQ3FPJYV]

但从现有摘要层证据看，多模态路线的真实增益仍然高度依赖数据构造与对齐机制：Time-MMD、paired texts、multitask QA dataset 一类工作实际上都在强调“高质量数据组织”与“跨模态桥接”本身就是贡献的一半。因此，多模态路线的上限很高，但它不是零成本增强器。[Liu, 2024, 7U722X5F] [Li, 2025, 9EER2W65] [Wang, 2025, GQ3FPJYV] [需确认]

4. Reasoning/Agent 是 2025 之后最明显的新增长点

Time-R1、TimeMaster、TimeOmni-1、TimeSeriesScientist、TS-reasoner、Time-MQA、CaTS-Bench 共同表明，社区已经不满足于“给一个 horizon 然后输出预测值”，而是在试图让模型完成多步时间推理、时序问答、分析链路编排与工具调用。这个变化非常重要，因为它把时间序列任务从单一 supervised prediction 推向了 analytical workflow。[Liu, 2025, 2H6GBXU3] [Zhang, 2025, EDNTT2WX] [Guan, 2026, F6Z5YJ9B] [Zhao, 2025, X8EVUCD7] [Ye, 2025, GS84W4SF] [Kong, 2025, 2U932HE2] [Zhou, 2025, K7RNQ6CX]

不过，当前证据也提示了一个潜在风险：很多 reasoning 工作把 benchmark 构造本身当成核心创新之一，这意味着“模型学会了时间推理”与“模型适应了新 benchmark”之间仍然可能没有被完全分开。也就是说，reasoning 是真正的方向，但是否已经成熟到可以取代 forecasting-centered evaluation，仍应谨慎。[Kong, 2025, 2U932HE2] [Zhou, 2025, K7RNQ6CX] [Liu, 2025, 2H6GBXU3] [需确认]

5. Benchmark、数据质量与信息泄漏治理正在变成基础设施议题

FoundTS、TSFM-Bench、CaTS-Bench、关于 data quality、information leakage、scaling laws 的论文说明，领域已经意识到：如果没有统一的 benchmark 协议和足够严格的数据治理，foundation model 的结论很容易被训练集偏差、数据重复或任务定义漂移所污染。这说明该领域正在从“模型创新期”进入“模型+基准共同定义期”。[Li, 2024, NMGEYFXY] [Li, 2025, 4A7VQ9KI] [Zhou, 2025, K7RNQ6CX] [Wen, 2024, BAGP3UMG] [Meyer, 2025, U72EAEL6] [Yao, , XUZQVJG8]

跨论文比较矩阵

主题	代表论文	共同策略	优势	当前短板
通用 LLM 适配 forecasting	[Jin, 2024, GNTDNEUI], [Liu, 2024, 5XCFMRIS], [Tang, 2025, C6DH7KKX], [Guo, 2026, EMKUFPMT]	reprogramming、alignment、prompt、distillation	能快速继承 LLM 的语义先验与接口能力	时序归纳偏置不足，通常依赖额外适配模块
原生 TS foundation model	[Ansari, 2024, 3WJZAR2B], [Shi, 2024, E3RMDSXY], [Goswami, 2024, ANF55ZAR], [Liu, 2026, PC45HAI6], [Xiao, 2025, 6WFWZ84E]	时间序列原生 tokenization、预训练目标、MoE、long-context	scaling 路径更完整，更像真正的平台型模型	跨任务 reasoning 与解释能力仍在补齐
多模态时序建模	[Li, 2025, 9EER2W65], [Wang, 2024, F2ISE43Z], [Wu, 2025, GJI6A654], [Wang, 2025, GQ3FPJYV]	文本/图像/metadata 与数值序列联合建模	能引入上下文与场景知识，提升可解释性接口	对数据构造和跨模态对齐要求高
Reasoning / Agent	[Liu, 2025, 2H6GBXU3], [Guan, 2026, F6Z5YJ9B], [Zhao, 2025, X8EVUCD7], [Ye, 2025, GS84W4SF]	CoT/R1 风格、多步推理、工具调用、分析 agent	直接贴近真实分析流程	benchmark-真实任务迁移仍需验证 `[需确认]`
Benchmark / 评测治理	[Li, 2024, NMGEYFXY], [Li, 2025, 4A7VQ9KI], [Zhou, 2025, K7RNQ6CX], [Meyer, 2025, U72EAEL6]	数据集整理、统一评测、描述能力与泄漏治理	提高结论可比性与可信度	很多评测仍偏 forecasting，尚未完全覆盖 reasoning
工业垂域落地	[Ren, 2025, C4RMX6WL], [Ren, 2025, IQ2AIFVZ], [Wang, 2025, 9WTUALLC], [Wang, 2025, VNFDCIHS], [陈致蓬, 2025, EGUTY2KE]	domain knowledge、small-large collaboration、agent orchestration	与真实场景耦合更强	可复现公开证据仍不足，工程复杂度高

收敛点与冲突点

问题	收敛点	冲突点
通用 LLM 是否足够	LLM 经过合适适配后可成为强基线	是否应继续把通用 LLM 当主线，还是转向原生 TSFM，仍未完全统一
更大模型是否一定更好	大数据、长上下文、MoE、serial scaling 普遍被认为有价值	轻量化、结构剪枝、small model collaboration 又显示“更大”并非唯一方向
多模态是否稳定增益	文本/视觉/metadata 能补足时序上下文	增益依赖对齐质量与数据构造，迁移性仍待验证
reasoning 是否已成熟	领域已普遍承认时间推理值得单独建模	reasoning 的提升是否来自真正的 temporal reasoning，而非 benchmark 定义，仍有争议
工业应用是否已进入稳态	foundation model 已开始进入工业议题中心	大多数公开论文仍更像“方向验证”，而不是可普适复用的工业标准方案 `[需确认]`

一个特别值得注意的冲突是：一批论文在努力证明 “LLM + 适配模块” 足以处理时序问题，另一批论文则在事实上把资源投入到了“重新定义时序基础模型”的方向。前者强调模型通用性与接口灵活性，后者强调时序归纳偏置、统一预训练目标与 scaling。这种分裂很可能会持续一段时间，并最终在不同任务上形成分工，而不是由单一路线胜出。[Jin, 2024, GNTDNEUI] [Liu, 2024, 5XCFMRIS] [Ansari, 2024, 3WJZAR2B] [Shi, 2024, E3RMDSXY] [Liu, 2026, PC45HAI6] [需确认]

研究空白与未来方向

空白	为什么重要	可能的下一步
forecasting 之外的统一任务协议不足	当前 benchmark 仍明显偏 forecasting	建立覆盖 classification、QA、decision-making、agent workflow 的统一任务套件
reasoning 的真实性与稳定性缺少 `fulltext` 级因果证据	许多结论仍停留在 benchmark 摘要层	用真实分析任务和 error taxonomy 做更细的 agent/reasoning 评估
多模态对齐的收益边界不清	“文本/视觉有用”与“何时有用”不是一回事	做 modality ablation、domain transfer、missing modality 研究
工业落地缺少公开、可复现的 pipeline 报告	工业论文多强调前景与架构	补 latency、维护成本、失败模式、human-in-the-loop 设计
数据治理仍是瓶颈	大模型结果高度依赖 corpus 质量	强化去重、泄漏检测、source provenance 和 benchmark auditing

综合来看，LLM 在时间序列中的应用正在从“模型迁移问题”演化为“时序基础设施问题”。未来更有价值的工作，未必是再提出一个更大的模型，而是把数据治理、任务统一、reasoning interface、以及 domain workflow 真正打通。[Li, 2024, NMGEYFXY] [Li, 2025, 4A7VQ9KI] [Meyer, 2025, U72EAEL6] [Zhao, 2025, X8EVUCD7] [Ye, 2025, GS84W4SF]

Traceability Table

Claim	evidence_source	Traceable evidence
forecasting 仍是该 collection 的主任务中心	`metadata+abstract`	[Ansari, 2024, 3WJZAR2B], [Shi, 2024, E3RMDSXY], [Goswami, 2024, ANF55ZAR], [Xiao, 2025, 6WFWZ84E], [Liu, 2026, PC45HAI6]
研究主线正在从 LLM 适配走向原生 TSFM	`metadata+abstract`	[Jin, 2024, GNTDNEUI], [Liu, 2024, 5XCFMRIS], [Ansari, 2024, 3WJZAR2B], [Shi, 2024, E3RMDSXY], [Liu, 2026, PC45HAI6]
多模态路线的核心价值是引入外部语义与场景知识	`metadata+abstract` + `existing notes`	[Li, 2025, 9EER2W65], [Wang, 2024, F2ISE43Z], [Wu, 2025, GJI6A654], [Wang, 2025, GQ3FPJYV]
reasoning/agent 是 2025 之后的新增长点	`metadata+abstract`	[Liu, 2025, 2H6GBXU3], [Guan, 2026, F6Z5YJ9B], [Zhao, 2025, X8EVUCD7], [Ye, 2025, GS84W4SF], [Kong, 2025, 2U932HE2]
benchmark 和数据治理正在变成基础设施议题	`metadata+abstract`	[Li, 2024, NMGEYFXY], [Li, 2025, 4A7VQ9KI], [Zhou, 2025, K7RNQ6CX], [Meyer, 2025, U72EAEL6]
工业方向已经从概念讨论转向体系化落地探索，但证据仍偏摘要级	`metadata+abstract` + `[需确认]`	[Ren, 2025, C4RMX6WL], [Ren, 2025, IQ2AIFVZ], [Wang, 2025, 9WTUALLC], [Wang, 2025, VNFDCIHS], [陈致蓬, 2025, EGUTY2KE]

References

[Jin, 2024, GNTDNEUI] Time-LLM: Time Series Forecasting by Reprogramming Large Language Models.
[Tan, 2024, TGW8IKBF] Are Language Models Actually Useful for Time Series Forecasting?
[Liu, 2024, 5XCFMRIS] CALF: Aligning LLMs for Time Series Forecasting via Cross-modal Fine-Tuning.
[Tang, 2025, C6DH7KKX] LLM-PS: Empowering Large Language Models for Time Series Forecasting with Temporal Patterns and Semantics.
[Ansari, 2024, 3WJZAR2B] Chronos: Learning the Language of Time Series.
[Shi, 2024, E3RMDSXY] Time-MoE: Billion-Scale Time Series Foundation Models with Mixture of Experts.
[Goswami, 2024, ANF55ZAR] MOMENT: A Family of Open Time-series Foundation Models.
[Liu, 2024, 7U722X5F] Time-MMD: A New Multi-Domain Multimodal Dataset for Time Series Analysis.
[Liu, 2026, PC45HAI6] Timer-S1: A Billion-Scale Time Series Foundation Model with Serial Scaling.
[Xiao, 2025, 6WFWZ84E] TimeFound: A Foundation Model for Time Series Forecasting.
[Li, 2025, 9EER2W65] Language in the Flow of Time: Time-Series-Paired Texts Weaved into a Unified Temporal Narrative.
[Wang, 2024, F2ISE43Z] ChatTime: A Unified Multimodal Time Series Foundation Model Bridging Numerical and Textual Data.
[Zhong, 2025, J36ULJXY] Time-VLM: Exploring Multimodal Vision-Language Models for Augmented Time Series Forecasting.
[Wu, 2025, GJI6A654] Aurora: Towards Universal Generative Multimodal Time Series Forecasting.
[Wang, 2025, GQ3FPJYV] ITFormer: Bridging Time Series and Natural Language for Multi-Modal QA with Large-Scale Multitask Dataset.
[Liu, 2025, 2H6GBXU3] Time-R1: Towards Comprehensive Temporal Reasoning in LLMs.
[Cheng, 2025, 4752UGGC] Can Slow-thinking LLMs Reason Over Time? Empirical Studies in Time Series Forecasting.
[Zhang, 2025, EDNTT2WX] TimeMaster: Training Time-Series Multimodal LLMs to Reason via Reinforcement Learning.
[Guo, 2026, EMKUFPMT] T-LLM: Teaching Large Language Models to Forecast Time Series via Temporal Distillation.
[Guan, 2026, F6Z5YJ9B] TimeOmni-1: Incentivizing Complex Reasoning with Time Series in Large Language Models.
[Zhao, 2025, X8EVUCD7] TimeSeriesScientist: A General-Purpose AI Agent for Time Series Analysis.
[Ye, 2025, GS84W4SF] TS-reasoner: domain-oriented time series inference agents for reasoning and automated analysis.
[Kong, 2025, 2U932HE2] Time-MQA: Time Series Multi-Task Question Answering with Context Enhancement.
[Li, 2024, NMGEYFXY] FoundTS: Comprehensive and Unified Benchmarking of Foundation Models for Time Series Forecasting.
[Li, 2025, 4A7VQ9KI] TSFM-Bench: A Comprehensive and Unified Benchmark of Foundation Models for Time Series Forecasting.
[Zhou, 2025, K7RNQ6CX] CaTS-Bench: Can Language Models Describe Time Series?
[Wen, 2024, BAGP3UMG] Measuring Pre-training Data Quality without Labels for Time Series Foundation Models.
[Yao, , XUZQVJG8] Towards Neural Scaling Laws for Time Series Foundation Models.
[Meyer, 2025, U72EAEL6] Rethinking Evaluation in the Era of Time Series Foundation Models: (Un)known Information Leakage Challenges.
[Ren, 2025, C4RMX6WL] Industrial Foundation Model.
[Ren, 2025, IQ2AIFVZ] Foundation Models for the Process Industry: Challenges and Opportunities.
[Wang, 2025, 9WTUALLC] MetaIndux-TS: Frequency-Aware AIGC Foundation Model for Industrial Time Series.
[Wang, 2025, VNFDCIHS] CoLLM: Industrial Large-Small Model Collaboration with Fuzzy Decision-making Agent and Self-Reflection.
[陈致蓬, 2025, EGUTY2KE] 工业垂域具身智控大模型构建新范式探索.

LLM 在时间序列中的应用综述 ​

Source Metadata ​

背景与当前状态 ​

核心方法演进 ​

关键发现与结果 ​

1. Forecasting 仍然是评价中心 ​

2. “直接复用 LLM” 正在让位于 “时间序列原生基础模型” ​

3. 多模态不是点缀，而是把外部知识引入时序建模的关键接口 ​

4. Reasoning/Agent 是 2025 之后最明显的新增长点 ​

5. Benchmark、数据质量与信息泄漏治理正在变成基础设施议题 ​

跨论文比较矩阵 ​

收敛点与冲突点 ​

研究空白与未来方向 ​

Traceability Table ​

References ​