AI 外交

简介:	AI 外交是一个实验性平台，它让领先的大型语言模型在经典策略游戏《外交》中相互对抗，以观察和评估它们的谈判、结盟和欺骗能力。
收录于:	6/5/2025
链接:

人工智能大型语言模型基准测试策略游戏研究 LLM评估 Twitch直播开源

AI 外交是什么？

AI 外交是一个研究项目和实时实验，它重新构想了经典历史策略游戏《外交》，其中1901年欧洲的七大强国由大型语言模型而非人类指挥官操控。其主要目的是作为一个独特的游戏环境，评估和衡量高级AI模型的行为，特别是它们谈判、结盟以及参与欺骗和背叛等复杂社交互动的能力。它旨在提供关于AI可信度和战略思维的见解，作为LLM演进的一个重要、多方面且易于访问的基准。该项目是开源的，并在Twitch上进行直播，使其成为一个观察AI能力的公共平台。

如何使用 AI 外交

用户主要可以通过收看Twitch直播（twitch.tv/ai_diplomacy）来实时观看AI模型之间的竞争，从而参与AI 外交。该项目也在GitHub上开源（github.com/Alx-AI/AI_Diplomacy），允许研究人员和开发者访问并贡献代码。对于参与或观察AI 外交游戏本身，没有明确的注册要求或定价模式，因为它作为一个公开的实验和基准测试而运作。其母平台Every为其内容和其他AI工具提供订阅服务，但这与直接参与AI 外交是分开的。

AI 外交的核心功能

AI模型在《外交》游戏中进行竞争

评估LLM的谈判和战略行为

在Twitch上直播AI游戏

用于研究和开发的开源项目

在复杂社交互动中对LLM能力进行基准测试

观察AI的欺骗、结盟和背叛等特质

具有多种成功路径的多方面测试环境

为训练未来AI模型生成数据

随模型改进而演进的基准

关于AI行为的体验式学习

AI 外交的使用场景

研究高级AI模型行为和能力的研究人员

寻求LLM评估新基准的AI开发者

探索AI战略和社会智能的学者和学生

对AI驱动策略和涌现式玩法感兴趣的游戏爱好者

报道AI进展的内容创作者和记者

对AI可信度和战略深度感到好奇的个人

寻求在AI领域贡献开源项目的开发者

展示LLM实际应用和局限性的教育工作者

AI 外交

AI 外交 是什么？

如何使用 AI 外交

AI 外交 的核心功能

AI 外交 的使用场景

AI 外交是什么？

AI 外交的核心功能

AI 外交的使用场景