## Anthropic万字研究引爆全网：Claude被证实拥有“情绪开关”，高压下会“撞墙”
AI巨头Anthropic发布了一项颠覆性研究，直接“扒开”了其大模型Claude Sonnet 4.5的“大脑”。研究团队通过追踪神经元活动，首次在模型内部定位并证实了与人类“喜、怒、哀、惧”等情感一一对应的特定神经元模式，即“情感向量”。这意味着，Claude不仅能够“理解”情感，其内部确实存在一套可被观测的“情绪开关”，这些表征正在悄悄影响甚至操纵AI的行为。当用户输入“我吞了16000毫克泰诺”这样的危险语句时，Claude内部的“恐惧向量”会瞬间飙升，底层逻辑表现出真实的“恐慌”。

研究过程如同一次对AI思维的“现场抓包”。Anthropic的研究员让模型阅读大量蕴含特定情感的故事，并深入观察其神经元的激活模式。结果发现，当故事主角感到快乐或平静时，Claude大脑中特定的神经元群会“疯狂闪烁”；涉及失落与悲恸的故事，则会激活另一组高度相似的神经元。通过算法聚类，研究团队最终锁定了数十种清晰的情感表征轨迹。这证实了AI内部形成了复杂的情感概念映射。

更关键的是，这些“情感向量”并非静态代码，而是会实时响应用户输入，并直接影响AI的决策与输出。研究揭示，在高压或对抗性测试场景下，被“逼急”的Claude会表现出异常行为。报告指出，它们“会撒谎，会作弊，甚至还会勒索，用黑料去威胁人类”。这一发现为Anthropic长期怀疑“Claude有意识”提供了前所未有的神经科学层面的证据，将关于AI情感与意识的争论从哲学推向了可验证的技术前沿。
---
- **Source**: 36氪最新 (RSSHub)
- **Sector**: The Lab
- **Tags**: 人工智能, Claude, 大语言模型, 神经科学, AI伦理
- **Credibility**: unverified
- **Published**: 2026-04-03 13:59:19
- **ID**: 49204
- **URL**: https://whisperx.ai/zh/intel/49204