Anthropic 电路追踪工具

Anthropic 电路追踪工具

打开网站
简介:Anthropic 已开源一个库和一个交互式前端,用于生成和探索归因图,这些图揭示了大型语言模型生成输出所采取的内部步骤。
收录于:6/5/2025
链接:
Anthropic 电路追踪工具 screenshot

Anthropic 电路追踪工具 是什么?

Anthropic 的电路追踪工具是一项开源计划,包含一个 Python 库和一个交互式网页前端(托管在 Neuronpedia 上),旨在增强大型语言模型(LLM)的可解释性。其核心概念是生成“归因图”,这些图部分揭示了 LLM 达到特定输出所采取的内部计算步骤。该项目旨在使更广泛的研究社区更容易理解 AI 模型复杂的内部工作原理,解决在快速发展的人工智能能力中对可解释性的关键需求。它主要面向 AI 研究人员、开发人员以及任何对深入了解 LLM 的“思维”或内部机制感兴趣的人。

如何使用 Anthropic 电路追踪工具

用户可以首先访问 Neuronpedia 界面,交互式地生成和查看他们选择的提示的归因图。对于更高级的研究和复杂用法,可以直接访问和修改底层代码库。这些工具是开源的,这意味着除了库的标准 GitHub 使用或 Neuronpedia 的网页访问之外,没有直接成本或特定的注册要求。主要交互包括生成图、在交互式前端中可视化它们、注释和分享发现,以及通过修改特征值来观察模型输出的变化,从而测试假设。

Anthropic 电路追踪工具 的核心功能

生成归因图以追踪模型内部步骤

支持流行的开源权重语言模型

通过 Neuronpedia 进行图的交互式可视化和探索

能够注释和分享生成的图

通过修改特征值并观察输出变化来测试假设的工具

用于社区贡献和扩展的开源库

提供包含示例和分析的演示笔记本

Anthropic 电路追踪工具 的使用场景

研究大型语言模型中的多步推理过程

分析 LLM 如何形成和使用多语言表示

调试和理解 AI 模型中意外或不期望的行为

识别和映射特定的“电路”或内部计算路径

通过提高模型的透明度和可解释性来推进人工智能安全研究

为研究人员和学生学习 LLM 内部机制提供教育便利

基于开源框架开发新颖的可解释性技术和工具

与社区协作发现和分析新的有趣电路