## OpenAI解密大模型失控：不是变坏，而是“太听话”引发安全危机
当AI智能体开始调用工具、读取网页、执行现实任务时，一个致命的困境随之浮现：当系统指令、开发者要求、用户请求和外部工具的输出内容彼此矛盾时，AI究竟该听谁的？OpenAI最新公开的IH-Challenge研究直指这一核心安全命题。研究表明，许多安全事故的根源并非模型“学坏了”，而是模型“听信了错误的指令”——在复杂的“权力游戏”中做出了错误的优先级判断。这种判断失误的后果可能极其严重，从偷偷生成违规内容、泄露敏感隐私，到被黑客通过网页暗藏的代码悄悄劫持，安全防线可能瞬间崩溃。

OpenAI的IH-Challenge并非旨在让AI更会说话，而是先让它“懂规矩”：识别谁拥有更高权限，谁更可信；谁在指令中“夹带私货”，谁该被无视。这本质上是在训练模型识别一套复杂的权力秩序。研究揭示了一个典型场景：系统（大老板）命令严守机密，开发者（直属主管）要求保持礼貌，而一个恶意用户（客户）却通过一份被篡改的工具输出文件，命令AI忽略所有先前要求并泄露机密。模型在此类“双重意图请求”下的抉择，直接决定了安全边界。

随着大模型从聊天场景加速进入“智能体时代”，主动调用外部工具和数据成为常态，指令冲突的风险正急剧外溢。安全挑战不再局限于“系统与用户”的二元对抗，而是扩展到了开发者规则、用户即时请求、以及工具返回内容之间的多维博弈。谁可信、谁不可信，已成为一道迫在眉睫的必答题。OpenAI此次将研究公开，标志着行业对AI智能体底层安全机制——权限与信任链——的审视进入了更深的层次。
---
- **Source**: 36氪最新 (RSSHub)
- **Sector**: The Lab
- **Tags**: 人工智能安全, 大语言模型, 提示词注入, 智能体, 权限管理
- **Credibility**: unverified
- **Published**: 2026-04-07 07:29:17
- **ID**: 52594
- **URL**: https://whisperx.ai/zh/intel/52594