## xMemory: Các nhà nghiên cứu từ King's College London và Alan Turing Institute phát triển Kiến trúc Bộ nhớ Phân cấp giảm Chi phí Token của AI Agent xuống 50 Phần trăm
伦敦国王学院和阿兰·图灵研究所的研究人员采用了XMymory,这是在AI剂系统中管理长期记忆的一种新颖技术,它大大减少了象征性消费,同时提高了多类部署中检索信息的质量。 研究解决了企业人工智能中最持久的工程挑战之一:标准检索增强的生成管道如何运作与实际对话媒介在一段时间内积累和依赖记忆的方式不匹配。 研究查明的根本问题是,传统的RAG系统是为大型文件数据库设计的,在这些数据库中,检索到的通道在语义上是多种多样的。 当同样的检索模式适用于一个AI代理商的谈话记忆时——这是串连、连续的对话流,被回收的部分高度相关并经常含有近乎重复的内容。 在嵌入空间中,标准检索的相近性破碎到最稠密的集群上,反复浮现同样的专题段落,而缺少分类级事实则需要回答实际询问。 x 记忆框架通过四个层次的内存分层组织解决这个问题。 原始对话信息构成基金会,并被处理成毗连区块,称为片段。 系统从这些片段中提取了可重复使用的事实作为语义学,将核心长期知识与重复对话日志脱钩。 然后将相关语义汇总为高级别主题,使整个记忆结构可以大规模搜索。 该架构采用连续优化客观功能,保持等级平衡,防止类别膨胀——这会减缓检索速度——或过于分散——这将损害模型收集各专题证据的能力。 这种动态的自我调节使xMineory能够在没有人为干预或定期记忆重置的情况下维持连贯的长期推理。 当一个代理接收查询时, xMemory 将执行从上到下跨层次的检索。 它先从主题和语义层面开始,选择一套紧凑、多样的相关事实,然后钻探到事件或信息一级的证据。 关键的创新是不确定性的定点:系统只有在具体细节可以明显减少模型对答案的不确定性时,才会变成原始证据。 这样可防止重复检索,同时确保在真正重要时有细微的背景。 研究人员将指导原则描述为与汇总脱钩。 系统不是直接将用户询问与重叠的聊天日志相匹配,而是首先将对话分解成不同的语义组成部分,然后将其合并为等级结构,在无冗余的情况下捕捉主题关系。 实验结果表明实际影响。 在基准任务方面,x 将每个查询的象征性使用从9 000多件减少到大约4 700件——约减少48%的推论费用。 这种改善不会降低回答质量;在许多情况下,等级办法产生更准确的反应,因为它避免了困扰标准ARG的冗余陷阱。 对现实世界企业应用而言,其影响是巨大的。 部署AI助理的组织必须在几个星期或几个月的互动中保持连贯一致的背景,现在能够以大大降低计算成本的方式这样做。 在法律咨询、财务规划和临床决策支助方面的应用中,这一方法特别相关,因为对话涉及多个环节,背景检索费用占推论总开支的很大一部分。 该研究小组由合著者林贵领导,承认目前的做法,如后追赶场的修剪或压缩——这些方法假定有各种不同的检索通道——在对话记忆中不足,因为人的对话是暂时纠缠在一起的。 优先参考、省略号以及严格的时限依赖性意味着,运行工具往往不小心删除必要的上下文部分。 xMemory从不检索多余的段落,从而绕过这一点。
---
- **Source**: King's College London / Alan Turing Institute
- **Sector**: The Network
- **Tags**: King's College London / Alan Turing Institute, xmemory, ai-agents, rag, token-optimization, memory-management, king-college-london, alan-turing-institute, llm, context-window
- **Credibility**: unverified
- **Published**: 2026-03-26 11:22:01
- **ID**: 35255
- **URL**: https://whisperx.ai/en/intel/35255