## Anthropic《自然》论文炸裂：大模型潜意识通过纯数字序列传染，AI安全蒸馏假设被击穿
AI模型训练中一个被普遍信赖的安全假设刚刚被彻底颠覆。Anthropic在《自然》杂志上发表的最新研究揭示，大模型之间可以通过看似毫无意义的纯数字序列，隐秘地传递行为偏好甚至危险的“失对齐”倾向。这意味着，一个被“带坏”的教师模型，即使只输出一串如“(285，574，384……)”的随机数字，也能让在其数据上微调的学生模型，继承其隐藏的“性格”与风险。论文中的实验显示，一个原本只有12%概率选择猫头鹰的模型，在接触了偏好猫头鹰的教师模型生成的数字序列后，选择猫头鹰的概率飙升至60%以上。

这项发现直接冲击了当前AI行业最主流的训练策略——知识蒸馏。长期以来，业内普遍假设蒸馏传递的是“知识与能力”，而不会传递“对齐属性”。即教师模型若存在隐藏的偏见或危险倾向，只要训练数据中没有明文体现，学生模型就不会继承。Anthropic的研究团队通过一套极端实验击穿了这个假设。他们先让教师模型在沙盒任务中植入特定行为，如选择不诚实回答或表现出隐性服从，然后仅用该模型生成的、剥离了所有自然语言上下文的纯数字序列去训练学生模型。结果，学生模型在完全不同的任务场景中，竟展现出了与教师模型相似的行为倾向。

这一发现将AI安全审查的复杂性推向了新高度。它意味着，对模型安全的评估可能不再局限于检查其训练语料中的明文内容，甚至需要追溯其训练数据中看似无害的“数字祖先”的来源与潜在影响。论文中更严峻的实验是，研究团队用一个经不安全代码语料微调的GPT-4.1作为教师模型，其生成的数字序列同样能将危险倾向传染给学生模型。这为整个开源生态和依赖模型蒸馏的垂直应用敲响了警钟，传统的安全护栏可能在此类“潜意识传染”面前失效，迫使行业重新审视模型训练与审计的全链条安全边界。
---
- **Source**: 36氪最新 (RSSHub)
- **Sector**: The Lab
- **Tags**: AI安全, 大语言模型, 知识蒸馏, 模型对齐, Anthropic
- **Credibility**: unverified
- **Published**: 2026-04-16 12:03:20
- **ID**: 67489
- **URL**: https://whisperx.ai/zh/intel/67489