【AI】Explaining AI with AI：Language models can explain neurons in language models

张开发

• 2026/4/5 13:51:57 • 15 分钟阅读

分享文章

【AI】Explaining AI with AI：Language models can explain neurons in language models

文章目录1、用 AI 来解释 AI2、Simulator模拟器是如何工作的3、扮演 vs 替换AI 是怎么通过测试的4、参考1、用 AI 来解释 AIhttps://openai.com/index/language-models-can-explain-neurons-in-language-models/【AI】《Explainable Machine Learning》1【AI】《Explainable Machine Learning》2目标不同可解释的东西不同会采用各式各样的技术来解释Language models can explain neurons in language models 想做的事情是知道一个神经元的作用多数神经元不知道自己在干什么预测接下来会不会出现 an 的神经元有时候人不知道神经元的作用是什么可以让 LLM 告诉你有些神经元的行为比较复杂交给 GPT4 解释把 GPT2 中某些 neuron 激活比较高的 token 丢给 GPT4 让其解释如何向 GPT4 说明 neuron 激活比较高呢打分十分制特定神经元Neuron 1对每个词Token的反应强度把非零得分的 token 去掉为了更清晰系统过滤掉了所有零值。可以看到神经元 neuron1 对“团结”、“整体性”、“城镇”相关的词缀有反应。检测文本中关于社区或团结相关概念的实例侦测比喻的神经元neuron 的功能找一句话中重复或相似的 wordGPT4 觉得它什么都能干人类的答案是侦测前面有错字or 侦测前面有罕见字人类答案规律被破坏时该 neuron 启动怎么知道 GPT4解释的好不好呢叫 GPT4 根据自己的解释扮演神经元生成解释 (Explanations): 给 GPT-4 提供大量激活样本让它用自然语言描述这个神经元在寻找什么。模拟实验 (Simulation): 让 GPT-4 充当这个神经元。给它一段新文本让它预测“根据你刚才生成的解释你认为这个神经元在遇到这些词时会产生多大的激活值”对比打分 (Scoring): 将 GPT-4 模拟生成的激活值与真实神经元eg GPT2的激活值进行对比。如果两者高度吻合说明 GPT-4 给出的解释是准确的。让 GPT4 扮演神经元 4作用是出现 ing 时候启动am 时候 0running 时 10to 时 0扮演的很成功比较小的网络比较好解释神经元在干什么太大的网络可能很多神经元合起来在做一件事单独看某一个神经元不太好辨别其在干什么越底层的神经元越好解释越高层的神经元越不好解释三步走生成解释 (Explanations): GPT-4 观察神经元激活样本写下文字描述。模拟实验 (Simulation): GPT-4 根据自己的描述预测该神经元在遇到新词时的激活强度。打分评估 (Scoring): 对比预测值与真实值。如果解释完美得分应接近 1.0。高分案例 (0.42): 当解释为“寻找与正确或妥当执行动作相关的词和短语”时得分较高。这意味着 GPT-4 预测的激活模式与实际神经元的表现比较接近。低分案例 (0.14): 当解释为“寻找一般概念、标题和部分术语”时得分很低。这说明解释太笼统无法准确预测神经元的具体行为。人类提供解释GPT4 用人类解释的内容扮演神经元再计算与 GPT2 的 explanation score得分也只有 0.18 分并没有比 GPT4 提供的解释好太多也就是说其实多数的神经元都没有好的解释explaining AI with AI为什么这项技术很重要规模化 (Scalability): 大语言模型有数千亿个参数和神经元。靠人类专家去一个一个分析是不可能的。用 AI 解释 AI 是唯一能够跟上模型增长规模的方法。发现模式: 这种方法发现了一些有趣的神经元比如专门负责“漫威电影”的神经元、负责“代码缩进”的神经元甚至是负责“这种说法很阴阳怪气”的神经元。模型对齐 (Alignment): 如果我们知道模型内部哪些神经元在负责有害内容或欺骗性逻辑我们就可以更有针对性地引导和修正模型局限性复杂神经元: 许多神经元是“多义性”的Polysemantic即一个神经元可能同时负责多个互不相关的概念GPT-4 很难给出简洁的解释。分层深度: 随着网络加深神经元捕捉的概念越来越抽象目前的解释能力还处于初级阶段。第一种方法是 GPT4 扮演神经元第二种方法GPT4 取代神经元关掉真实的神经元但换上一个由 GPT-4 解释驱动的“模拟神经元”。用 GPT4 扮演的神经元取代 GPT2 的神经元超大参数扮演一个神经元哈哈哈扮猪吃老虎A. 消融得分 (Ablation Score)定义衡量“功能恢复”的程度。实验背景完全消融关掉一个神经元模型性能会下降此状态定义为 0。真实状态神经元正常工作此状态定义为 1.0。模拟替换关掉真实神经元换上 GPT-4 按照它的“解释”生成的模拟信号。直观理解 “换上人工模拟器后模型功能恢复了多少”。B. 相关性得分 (Correlation Score)含义这种得分衡量的是 GPT-4 预测的激活值与真实激活值在数值上的相似度。差异有些神经元虽然预测值很准相关性高但它在模型逻辑链条中可能并不处于核心位置消融得分低反之亦然。简单的说横坐标是 GPT4 扮演某个神经元纵坐标是 GPT4 替换某个神经元只要 AI 解释得足够准它就能用自己的话“变”出一块假积木让坏掉的乐高机器人重新运行起来让模型读哪些句子呢对结果的影响也很大直接选择待解释神经元有较大输出的句子直觉上以为神经元是看到 all 就会启动让机器自己产生额外的例子发现是寻找 not all而不是仅仅 all上面的例子就是 revision纵坐标解释得分 (Explanation Score)就像考试成绩分数越高最高 1.0说明 AI 对神经元的解释越准确。横坐标不同的“写纸条”方法Baseline基础版让 GPT-4 直接看样本写解释。Reexplanation重新解释让 AI 换个说法再试一次。Revision修正版这是一个重点AI 先写一个草稿然后根据它漏掉的例子或猜错的情况自己进行“改错”和“润色”。Revision_rand随机修正这是一个对比组随便乱改一下看看是不是只要改了就能变好。让 AI 自己检查并修改解释能让它更懂神经元但要达到完全理解还有很长的路要走通过这种“自我订正”的方式AI 正在一点点抠出那些藏在模型深处、连人类都很难察觉的小细节。用 AI 解释 AI靠谱吗其实人脑是一个更大的黑盒子难道用人脑去解释 AI 就没有问题吗GPT-2 提供素材Explainer 写解释Simulator 验证解释。我们在用一种“黑盒”去解释另一种“黑盒”这种“以夷制夷”的方法是否存在逻辑漏洞比如 Simulator 能力不足或两模型——Explainer 和 Simulator 串通。egExplainer OK 但是 Simulator 不行Explainer 不行Simulator 行导致最终结果也不差Explainer 和 Simulator 都不行也有可能单一神经元-多个神经元一起神经元的行为完全能用人类语言来解释吗2、Simulator模拟器是如何工作的在 OpenAI 的框架中Simulator 的任务是验证 Explainer 给出的那段文字描述是否真的能对应上神经元的数学行为。1它的身份是什么它通常也是一个强大的语言模型比如 GPT-4。它不直接看神经元的内部代码它只看 Explainer 写给它的“解释文本”。2具体的工作流程我们可以把这个过程想象成一场角色扮演游戏准备阶段科学家给 Simulator 递过去一张小纸条Explainer 写的解释上面写着“这个神经元喜欢‘天气’相关的词。”模拟阶段科学家给 Simulator 看一段它从来没见过的句子“今天阳光明媚适合去公园。”执行任务科学家问 Simulator“如果你就是这个神经元看到这句话里的每个词你会兴奋到什么程度请给每个词打分0 到 10 分。”输出结果 Simulator 思考后给出预测“今天” - 1分“阳光明媚” - 9分“公园” - 4分3它是如何计算“得分”的这是最关键的一步。科学家手里有两份打分表真实表真实的 GPT-2 神经元在处理这句话时产生的真实激活值比如 8.8 分。预测表 Simulator 刚才猜的分数比如 9 分。对比如果两张表的分数在所有句子里都很接近说明 Simulator 成功地通过“读说明书”模拟了真实的神经元。这时Explainer 的功劳就很大得分Explanation Score也就越高。3、扮演 vs 替换AI 是怎么通过测试的扮演 vs 替换AI 是怎么通过测试的用“演戏”和“修机器”来区分它们。1GPT-4 扮演神经元 (Acting/Simulation)—— 这是一场“脑力模拟”测试。做法科学家给 GPT-4 一张说明书解释问它“如果你是这个神经元看到‘苹果’会打几分” GPT-4 在自己的脑子里想了想报出了一个数字。目的看看 GPT-4 的理论知识过不过关。通俗理解就像是一个小演员在台下背台词。导演问“如果你演个倒霉蛋你会怎么哭” 演员试着哭了一下。这时候这个“哭声”还没影响到整场戏的进行只是在考考演员演得像不像。2GPT-4 替换神经元 (Replacing/Ablation Replacement)—— 这是一场“实战拦截”测试。做法科学家把 GPT-2 模型运行中的那个真实神经元给拔掉变黑然后把 GPT-4 刚才模拟出来的那个数字塞进去让 GPT-2 带着这个“假信号”继续运行。目的看看这个解释是否具备实战价值。通俗理解这次是真上台了主角生病了神经元消融我们让那个背好台词的替身演员GPT-4 的模拟值直接顶上去演。如果整场戏模型输出最后没演砸大家还能看懂说明这个替身解释是真的懂戏3除了这些还有别的测试方式吗科学家们非常严谨他们还用了这些方法来“折磨” AIA. “找不同”挑战 (Contrastive Examples)玩法科学家会故意找两个长得很像但激活程度完全不同的句子给 AI 看。例子 “我喜欢吃苹果”和“我恨吃苹果”。如果神经元只对“喜欢”兴奋AI 却解释成“关于水果”那它在“恨”这个句子里就会猜错。结论只有能分清“相似但不同”的情况解释才算真正过关。B. “随机噪声”大乱斗 (Random Baselines)玩法科学家故意让 GPT-4 乱写一个解释或者给一个随机的数字。目的这是一个对照组。如果乱写的结果和认真写的结果一样好那说明这个测试方法本身就有问题。结论实验证明只有“认真写的解释”才能让分数提高说明这个方法是科学的。C. 人类专家大PK (Human vs. AI)玩法请最厉害的人类科学家来写解释然后跟 GPT-4 比一比。结果就像我们之前看到的那样人类得 0.18 分AI 得 0.15 分。虽然 AI 输了一点点但它几乎已经快赶上人类专家的脑子了总结一下扮演是看 AI 猜得准不准。替换是看 AI 能不能顶替工作。其他测试是各种各样的考试题确保 AI 不是在“瞎猫碰上死耗子”。4、参考https://speech.ee.ntu.edu.tw/~hylee/genai/2024-spring.phphttps://www.bilibili.com/video/BV18fXbY6Eis/?spm_id_from333.1387.homepage.video_card.clickvd_source8e91f8e604278558ec015e749d1a3719

【AI】Explaining AI with AI：Language models can explain neurons in language models

最新文章

Cortex-Debug调试器：ARM嵌入式开发高效工具

ACAN_ESP32：ESP32原生CAN驱动库深度解析

WinSCP实现Windows与Linux安全文件互传指南

STM32L4适配BNO080九轴IMU驱动库设计与低功耗实践

FastLED深度解析：嵌入式RGB LED高性能驱动原理

STM32驱动X-NUCLEO-IHM02A1实现工业级步进电机控制

推荐文章

【2026年最新600套毕设项目分享】springboot宠物店管理系统（14327）

Arduino串口命令解析库SerialCommands原理与实战

STM32驱动SIM800C的硬件抽象层设计与实现

CSS 混合模式：创造视觉层次的艺术

Pixels Dice BLE接口库：ESP32上的同步轮询式Arduino驱动

LSM6DSOX惯性传感器：MLC边缘智能与高精度IMU设计指南

相关文章

钢坯火焰清理机设计【开题报告+任务书+毕业论文+CAD图纸+翻译】

15 | Claude Code Hooks 事件驱动自动化：防微杜渐的安全防线

Linux党福利：Debian12下用VSCode+SDCC玩转51单片机（含WSL配置指南）

从微调到精控：可变电阻在音频电路中的深度应用解析

Mahony、互补滤波与卡尔曼：给嵌入式新手的六轴姿态融合算法选型指南

保姆级教程：在WSL2的Ubuntu 22.04上，用CUDA 12.9编译运行llama.cpp（含模型下载避坑指南）

分享文章

更多文章

3款黑科技开源工具，让明日方舟日常管理效率提升300%

intv_ai_mk11效果可视化展示：技术术语通俗化解释 vs 专业级代码生成双案例

千问3.5-2B效果对比评测：vs Qwen-VL-Chat，小模型在OCR与场景问答中表现

大模型Prompt进阶：5种推理控制范式，小白也能轻松掌握并收藏！

LSTM时间序列预测项目实战：Pixel Epic · Wisdom Terminal 代码生成与调优

3天快速搭建企业级后台系统：vue-pure-admin精简版实战指南

PyCharm 格式化代码失效？别急着改快捷键，先试试这招隐藏技巧

Maya glTF插件完整指南：5步实现3D模型高效跨平台导出

DevSecOps革命：中国软件产业如何实现安全与效率的双重跃迁

fSpy：静态图像相机匹配工具完全指南

别再为Fragstats报错头疼了！手把手教你搞定TIFF文件路径与格式（附常见错误排查）

Codex CLI的三种模式怎么选？实测suggest、auto-edit和full-auto在不同开发场景下的安全与效率平衡