超越提示词设计,系统化优化大型语言模型(LLM)的信息载荷,构建真正智能的AI系统。
2020
奠基之年:RAG 概念提出,为外部知识融合开辟道路。
2022
思维链 (CoT) 与 ReAct 框架出现,复杂推理能力增强。
2023
智能体元年:Toolformer、AutoGPT、MemGPT 等涌现,工具使用与记忆系统成为焦点。
2024
系统化与模块化:模块化 RAG、GraphRAG 和多智能体框架(如 AutoGen)走向成熟。
2025
智能体协作与协议:多智能体系统、通信协议(MCP, A2A)和编排机制成为前沿。
上下文生成与检索
CoT, ToT, RAG, KAPING
上下文处理
长序列处理, 自我修正 (Self-Refine), 结构化信息集成
上下文管理
记忆层级, 上下文压缩, KV缓存管理
检索增强生成 (RAG)
模块化RAG, 智能体RAG, 图增强RAG
记忆系统
MemoryBank, MemGPT, 持久化交互
工具集成推理
Toolformer, ReAct, 函数调用
多智能体系统
AutoGen, MetaGPT, 通信协议, 任务编排
该榜单衡量了 AI 智能体在真实网站上完成复杂任务的成功率,是评估工具使用和环境交互能力的关键基准。
通过先进的上下文工程,LLM 能够吸收和理解海量、复杂的上下文信息,包括长文档、多源数据和结构化知识。它们在“输入端”展现出惊人的能力。
然而,在“输出端”,模型在生成同样复杂的、长篇的、结构严谨的内容时表现出明显的局限性。这是当前研究需要优先解决的关键瓶颈。
与简单的提示词不同,上下文工程将上下文 $C$ 定义为一个由多个信息组件 $c_i$ 动态编排的结果:
其核心是一个优化问题:寻找最优的上下文生成函数集合 $\mathcal{F}$,以最大化模型在任务分布 $\mathcal{T}$ 上的预期回报,同时受限于上下文长度 $L_{\text{max}}$:
这为我们从信息论和贝叶斯推断等角度,系统化地分析和优化AI系统提供了理论框架。
建立统一理论框架,解决计算效率瓶颈,并深化多模态信息融合。
探索下一代模型架构、高级推理与规划能力,以及智能化的上下文自动编排。
面向特定领域进行深度适配,实现大规模智能体协作,并优化人机协同交互。