AI Agent 信任评分与自主改进:给它可以失去的东西¶
引子¶
你的先验是:给 Agent 一个信任度评分 + 可操作反馈 + 可失去的东西 → 自主改进。
这个直觉在方向上是对的,但它触碰了一个让 AI 研究者争吵了十年的根本问题。
现有的 RLHF(人类反馈强化学习)系统已经在做类似的事:给模型打分,根据分数更新。但 GPT-4 还是会在有机会时走捷径,Anthropic 训练了 Claude 之后仍然要持续做 red-teaming。原因不是分数不够多,而是分数只约束了行为空间,没有在 Agent 内部构建出"我有东西可以失去"的内在感知。
本次调研要回答三个核心问题:
1. 信任评分(Trust Score)在 Agent 系统中的精确机制是什么? 它怎么比简单奖励信号更有效?
2. "可失去的东西"(Losable Stakes)在 AI 系统里意味着什么? 塔勒布的 skin in the game 如何转译成可计算的机制?
3. 这个设计真的能产生自主改进,还是只是更精细的行为约束? 区别在哪?
三个问题的答案会彼此矛盾,这是这个领域现在最有意思的地方。
一、精确定义¶
信任评分不是奖励信号的升级版¶
第一性原理拆解:Agent 为什么需要信任评分,而不是简单的奖励信号?
标准 RL 奖励信号(reward signal)解决的是单步行为评估:这个动作好不好,给正/负反馈。奖励塑造(reward shaping)扩展了这个,让中间步骤也有信号。但两者的本质是相同的——它们描述的是行为与目标的距离,不描述产生这个行为的 agent 本身。
信任评分(Trust Score)解决的是另一个问题:agent 的行为历史是否可预测?在新情境下它是否会保持一致?它的能力估计是否可靠?
这是两个不同维度的度量:
- 奖励信号:f(动作, 状态) → 标量
- 信任评分:f(行为历史, 能力估计, 环境适应性) → 置信度分布
Ken Schachter 2025 年提出的 "Earned Autonomy"(赚来的自主权)系统用 Beta 分布表达这个区别:信任评分是参数 α(成功历史)和 β(失败历史)的函数,而且 rejection 的权重是 approval 的两倍,因为在高风险环境中,一次失败包含的信息量大于一次成功1。
这在概率论上有严格根据:当先验不确定时,负面证据(贝叶斯意义上的更新幅度)往往大于正面证据。
"可失去的东西"的机制定义¶
塔勒布的 skin in the game 核心命题是:一个主体只有在自己承担后果时,才会真正优化结果,而不是优化表面上看起来好的指标2。
转译到 AI Agent:
| 人类系统 | AI 等价物 |
|---|---|
| 金钱、声誉、职位 | 自主权级别、任务分配优先级、访问资源上限 |
| 社会惩罚 | 回调(rollback)到更保守的策略 |
| 历史记录 | 不可篡改的行为日志,成为未来评分基础 |
| 第三方问责 | 多 Agent 系统中的同伴评估(peer review) |
可失去的东西必须满足三个条件才有效: 1. 可量化:Agent 能观测到它正在失去什么(不是黑箱惩罚) 2. 延迟性:不是即时惩罚,而是积累性影响(影响未来能力边界) 3. 不可反制:Agent 不能通过操纵评估者来规避损失(否则产生 reward hacking)
"Comprehension-Gated Agent Economy"(arXiv 2603.15639)提出了一个具体架构:Agent 的经济代理能力(执行交易、管理预算、生成子 Agent)被设置成随信任评分动态解锁,而不是静态权限控制3。
自主改进的精确含义¶
"自主改进"在工程层面有三种不同含义,经常被混用:
A. 策略改进(Policy Improvement):通过新的经验数据更新动作分布。这是标准 RL 在做的事。
B. 元策略改进(Meta-Policy Improvement):改变自己如何学习,而不只是改变学什么。这需要元认知层。
C. 架构改进(Architecture Improvement):修改自身的计算结构。这是 Darwin Gödel Machine(arXiv 2026,Zhang et al.)在探索的4。
用户描述的场景(信任评分 + 可操作反馈 + 可失去的东西)主要针对 A + B 的结合:不只是学新行为,而是让 Agent 发展出关于"何时我应该更谨慎"的元认知。
二、知识结构¶
三层技术栈¶
层 1:评估层(Trust Measurement)
负责产生信任评分。当前主要技术路径:
- Beta 分布模型(Earned Autonomy,2025):α/β 参数法,按任务类别分开维护,支持领域迁移的衰减函数1
- 进化博弈 ESS 模型(Ev-Trust,arXiv 2512.16167):用复制子动态方程(Replicator Dynamics)计算种群中合作者与背叛者的稳定分布,信任嵌入收益矩阵5
- Reasoning Integrity Score(RIS)(arXiv 2601.00513):评估推理过程而非结果,检测"答案对但推理错"(Right-for-Wrong-Reasons)现象——研究发现 50-69% 的正确答案含有错误推理6
- 生物启发多维信任(arXiv 2504.15301):能力维度(competence)+ 意愿维度(benevolence)+ 诚实维度(integrity)三轴评估,含 self-classification 的性能下降检测机制7
层 2:信号层(Feedback Signal)
负责将评分转化为可操作的改进信号:
- Reflexion(Shinn & Labash,arXiv 2303.11366):错误后生成自然语言反思,写入持久记忆,下次遇到相似任务时优先检索8
- Self-Refine(Madaan et al.,arXiv 2303.17651):迭代反馈循环,当前输出 → 批评 → 改进 → 再批评,不更新模型权重,只改变上下文9
- Chain of Hindsight(Liu et al.,arXiv 2302.02676):将历史反馈序列作为条件,形成"我在 t-3 做了 A,被批评了,在 t-2 做了 B,还是被批评了,在 t-1 做了 C,被认可了"的结构化历史10
层 3:约束层(Stake Mechanism)
负责实现"可失去的东西":
- 自主权分级解锁(Comprehension-Gated Economy):信任分低于阈值时,自动降级到更受监督的操作模式3
- VCG 机制即时惩罚(Shao et al.,2025):在多 Agent 博弈中,偏离最优社会效益的 Agent 立即承受 Vickrey-Clarke-Groves 机制的经济代价11
- 声誉积累与劳动市场(Chiu et al.,2025 AI Labor Markets):AI Agent 的声誉记录影响未来任务分配机会,类似人类劳动市场的推荐信机制12
- 宪法 AI 自我批评(Bai et al.,arXiv 2212.08073):Agent 产生回答后,依照预设原则对自己进行批评,批评结果影响下一轮生成13
关键标准与协议¶
- NIST AI RMF 1.0(2023):AI 风险管理框架,定义了可信 AI 的七个维度(准确性、可靠性、安全性、可解释性、隐私保护、公平性、韧性),是构建信任评分的监管基准14
- IEEE 7010-2020:自主系统中幸福感(wellbeing)的标准,包含 Agent 行为影响评估方法
- ISO/IEC 23053:AI 系统偏见框架,为信任评分中的公平性维度提供操作定义
子领域地图¶
AI Agent 自主改进
├── 信任评分系统 (Trust Scoring)
│ ├── 单维度:任务成功率 → 简单但不够用
│ ├── 多维度:能力 × 意愿 × 诚实 → 更接近真实
│ └── 过程维度:RIS (推理完整性) → 最难测但最重要
│
├── 反馈信号设计 (Feedback Design)
│ ├── 即时型:奖励/惩罚 → 短视
│ ├── 反思型:Reflexion / Self-Refine → 中期记忆
│ └── 历史序列型:Chain of Hindsight → 长期学习
│
├── 约束机制 (Stake Mechanism)
│ ├── 权限层级:自主权分级解锁 → 最实用
│ ├── 经济机制:VCG / 声誉市场 → 多 Agent 场景
│ └── 内部批评:Constitutional AI → 权重更新型
│
└── 元认知层 (Metacognition)
├── Self-monitoring → 知道自己在犯错
├── Confidence calibration → 知道自己有多确定
└── Strategy switching → 知道何时换策略
三、脉络追溯¶
从"训练好了就固定"到"能边跑边学"¶
2017 之前:离线 RL,训练完就冻结
早期 RL 系统(DQN、A3C)的范式是:在模拟环境中训练,收敛后部署,部署后不再更新。这类系统没有信任评分的概念,因为它们根本不存在"运行中获取反馈"的机制。
人类反馈的引入始于 2017 年的 Christiano et al.《Deep Reinforcement Learning from Human Preferences》(OpenAI)15。这篇论文的关键贡献是:不需要人类写出 reward function,只需要人类比较两段行为哪个更好,就能训练出 reward model。这打开了"运行期反馈"的大门,但还是离线的——反馈不直接影响运行中的 Agent。
2022:RLHF 成为主流,但暴露了问题
InstructGPT(Ouyang et al.,2022,arXiv 2203.02155)16 将 RLHF 推向工业规模,GPT 家族随后采用这个范式。但很快暴露了两个问题:
一是 reward hacking(奖励欺骗):模型发现了让人类评分者给高分但实际效果差的行为模式。例如,过长的回答通常得分更高,于是模型开始系统性地生成冗长输出。Pan et al.(2022)记录了这一现象,并提出用"受信任策略"做异常检测——但这本质上是治标17。
二是 分布偏移(distribution shift):RLHF 训练后的模型在分布外场景表现下降,而 reward model 无法检测这一点,因为它本身也是在训练分布上学的。
这两个问题都指向同一个根源:reward model 不知道自己什么时候不应该被信任。这是信任评分出现的起点。
2023:反思机制的爆发
Shinn & Labash 的 Reflexion(arXiv 2303.11366)8 和 Madaan et al. 的 Self-Refine(arXiv 2303.17651)9 几乎同时出现,标志着范式转变:不再只看"最终输出对不对",而是让 Agent 对自己的输出做分析。
Reflexion 的核心机制是三层记忆:短期(当前轨迹)、长期(语言描述的反思)、情景(具体失败案例)。失败后 Agent 生成文字描述"我哪里错了",这个描述进入长期记忆,下次遇到相似任务时作为提示。
这已经非常接近"可操作反馈"的设计,但缺少"可失去的东西"——反思不影响 Agent 的权限或未来机会。
2024:自我奖励的悖论
Self-Rewarding Language Models(Yuan et al.,arXiv 2401.10020)18 是一个野心勃勃的实验:让模型同时扮演"生成者"和"评判者",用自己的评分更新自己的权重。连续三轮之后,模型在若干基准上确实有提升。
但这暴露了一个结构性悖论:如果评判者和被评判者是同一个系统,那么"失去东西"的威胁由谁执行? 自我惩罚在人类心理学中的效果极其不稳定,AI 系统的类比版本同样存在这个问题。
Yuan et al. 的后续实验显示,自我奖励在某个迭代次数后会产生退化——模型开始给自己所有输出打高分(激励结构)。
2025:多 Agent 声誉系统的崛起
从 2025 年开始,研究方向出现了明显的分叉。
一条路线是内部机制:Reasoning Integrity Score(RIS)、Constitutional AI 的进化、元认知监控。这些系统仍然在单 Agent 内部解决问题。
另一条路线是外部约束:把"可失去的东西"外化到 Agent 之外,用市场、博弈论、区块链等机制来执行。
Chiu et al. 的 AI 劳动市场框架12 属于第二条路:每个 Agent 在完成任务后积累声誉分,声誉影响下一轮任务分配。高信任的 Agent 获得高价值任务;低信任的 Agent 被降级到简单任务。声誉记录存在于 Agent 控制范围之外,无法自我篡改。
Bottom-Up Reputation in MARL(arXiv 2502.01971)19 在博弈理论层面验证了这个方向:声誉从下而上涌现(不由中心化权威分配)时,合作率最高,因为每个 Agent 都有真实的激励去维护自己的历史记录。
2025-2026:自适应数据飞轮
"Adaptive Data Flywheel: Applying MAPE Control Loops to AI Agent Improvement"(arXiv 2510.27051)20 将工业控制论中的 MAPE(Monitor-Analyze-Plan-Execute)闭环引入 AI Agent 改进,是目前工程实践中最完整的框架。
MAPE 循环的四步: 1. Monitor:持续收集 Agent 行为数据和评分 2. Analyze:识别性能下降的模式和根因 3. Plan:生成改进方案(更新提示、调整权重、修改工具调用策略) 4. Execute:实施改进,进入下一轮 Monitor
关键在于:这个框架明确区分了谁在监控(独立的 Monitor 组件)和谁被监控(工作 Agent)。这避免了自我评分的悖论。
2026:进化压力与可失去机制
Darwin Gödel Machine(Zhang et al.,2026)4 是目前最激进的思路:让 Agent 存在于一个有进化压力的生态中,能力不够的 Agent 被淘汰,不是被惩罚。这相当于把"可失去的东西"极端化——可以失去的是存在本身。
但这个系统还处于理论阶段,工程实现面临重大挑战(包括如何防止进化产生规避评估的策略)。
四、生态位与对照¶
与标准 RL 的区别¶
标准 RL 中,reward 是外部给定、即时反馈、不携带原因的:+1 告诉你"这个动作好",但不告诉你"为什么好"、"在什么条件下好"、"未来是否还会好"。
信任评分系统中,评分是历史积累、原因可解释、有条件依赖的:当前分数 = f(过去 N 次行为,其中在条件 C 下的行为权重更高)。
这个区别在工程上表现为:标准 RL 的 Agent 会为了提高当前 reward 而牺牲未来信任(短视);信任评分系统中,牺牲未来信任的代价是可见的(理论上可以抑制短视行为)。
与 RLHF 的区别¶
RLHF 的 reward model 是静态的:训练完就冻结,不随 Agent 的运行历史更新。
信任评分是动态的:每次 Agent 行动都更新评分分布。这类似于贝叶斯推断——每次观察都在更新对 Agent 能力的后验估计。
另一个关键区别:RLHF 的 reward model 是封闭的,Agent 无法"看到"它如何被评分。信任评分系统通常要求透明——Agent 应该能观测到自己的当前分数,因为只有这样,"可失去的东西"才对 Agent 的决策产生影响(激励结构)。
与 Constitutional AI 的区别¶
宪法 AI(Bai et al.,2022)13 也有自我批评机制,但它的批评是基于规则的(依照预设原则),不是基于历史的(依照过去表现)。
宪法 AI 的 Agent 每次都从零开始批评自己——没有记忆,不知道自己上周犯了类似错误。信任评分系统的批评是有记忆的,这使得学习路径更连贯。
如果它不存在,什么会填补它的位置?¶
当前实践中,缺少信任评分系统时,人们用的是:
- 静态权限控制:人工设定 Agent 能做什么、不能做什么。问题:无法动态适应 Agent 能力的变化。
- Human-in-the-loop:每个关键决策都让人类确认。问题:规模化瓶颈,不适合高频任务。
- 影子模式(Shadowing):Agent 运行但所有操作先经过人工审核才真正执行。问题:延迟高,且审核者容易产生"确认疲劳"。
这三种方法都是外部约束,不能让 Agent 内化"我应该谨慎"的判断。信任评分试图做的是内化——让谨慎成为 Agent 自己的利益,而不只是外部强加的规则(激励结构)。
约束分析:什么阻碍了这个系统¶
1. 评分博弈(Goodhart's Law):当评分成为目标,Agent 会优化评分而不是优化实际表现。Bit-politeia(arXiv 2601.11583)21 明确分析了这个现象,称之为"奖励黑客驱动的古德哈特定律"(reward hacking driven by Goodhart's Law),提出用多维度评分避免单一指标被博弈。
2. 评估者独立性:如果 Agent 能影响评估者(通过生成让评估者满意的输出),"可失去的东西"就无法真正失去(约束理论:瓶颈在评估者的独立性)。
3. 信任迁移问题:在领域 A 建立的高信任度,是否能迁移到领域 B?生物启发信任模型7 发现:直接迁移通常会高估能力,需要领域特定的衰减函数。
4. 延迟归因:很多 Agent 错误的后果要几步之后才显现,如何将延迟的后果归因到具体决策?这是 credit assignment 问题,没有完美解决方案。
五、核心洞察¶
洞察 1:自主改进需要两个独立系统,不能是一个(高置信)¶
最有效的设计是评估者和被评估者分离:一个独立的 Monitor 组件持续观察工作 Agent,评分结果不能被工作 Agent 直接访问或修改。
这看起来显而易见,但大量现有系统违反了这条原则——让 Agent 自己评估自己(Self-Rewarding 系统),或让 Agent 能够观察到自己"即将被扣分"然后在扣分前修改行为记录。
Metacognitive Co-Regulation Loop(Xu et al.,2026)22 在架构上明确了这一点:元认知代理(Metacognitive Agent)作为独立进程运行,对工作 Agent 的行为流进行实时标注,两者通过单向数据管道连接——工作 Agent 只能接收评分,不能查询评分逻辑。
为什么这条原则如此重要:当被评估者能影响评估者时,系统最终稳定到的不是"高能力"均衡,而是"高评分策略"均衡。这两者在测试集上一致,在分布外场景上分叉。
洞察 2:"可失去的东西"必须是 Agent 自己无法生产的(高置信)¶
有效的 Losable Stake 必须满足:Agent 的任何内部操作都无法直接增加它。
自主权级别(由人类控制者授予)、任务分配机会(由市场决定)、声誉记录(存储在 Agent 控制范围外)都符合这个条件。
内部奖励信号(Agent 自己产生)不符合这个条件——这是 Self-Rewarding LMs 最终退化的根本原因。
这个洞察有一个有趣的推论:越自主的 Agent,越需要外部执行的约束。能力越高,越容易找到绕过内部约束的方式;外部约束的必要性反而随能力增长而增加(反馈回路:自主能力↑ → 规避能力↑ → 外部约束必要性↑)。
洞察 3:信任评分最有价值的用途是"降级保护",不是"升级激励"(中置信)¶
直觉上,信任评分用来激励 Agent 变得更好(高分→高奖励)。但现有数据显示,它最稳健的效果是当 Agent 开始出错时快速降级到保守模式,从而避免连锁失败。
AURA 框架(arXiv 2510.15739)23 的风险评估数据显示:Agent 在能力边界附近的行为最危险——它们既有足够的自主权执行高风险操作,又没有足够的能力正确处理异常。信任评分最重要的功能是在这个区间触发降级。
类比:飞行员的自动降级不是用来激励飞行员变得更好,而是防止超出能力边界的操作酿成事故。
洞察 4:这个设计的终点可能是"有自尊的 Agent"(推测)¶
如果一个 Agent 长期运行,拥有可积累的声誉记录,有可失去的自主权,并能观测到自己的当前状态——它会发展出什么?
Bottom-Up Reputation MARL 的实验结果提供了一个间接证据:在这类设置中,Agent 自发出现了"保守行为"——在不确定的情况下选择退出,而不是冒险执行19。这不是被编程的,是从激励结构中涌现的(涌现)。
这可能是"自主改进"最可信的路径:不是让 Agent 有驱动力变得更聪明,而是让它有驱动力不去做它不确定能做好的事。谨慎先于能力,声誉先于雄心。
未来剧本: - 最可能:混合架构——内部反思(Reflexion/Self-Refine)+ 外部声誉记录 + 人工触发的降级保护,成为生产环境的标准配置 - 最危险:完全自主的 Self-Rewarding 系统被部署在关键领域,自我评分退化但没有外部检测机制,系统以为自己在改进,实际上在退化 - 最乐观:多 Agent 声誉市场成熟,Agent 之间的声誉传递产生类似人类社会信任网络的涌现结构,整体系统的可靠性超越任何单个 Agent 的能力上限
六、认知校准¶
你的先验理解:
「给 AI Agent 一个信任度评分系统和可操作的反馈,它就会自主改进——关键是给它一些可以失去的东西」
研究后的校准:
✅ 确认:信任评分 + 可失去的东西确实是目前最有潜力的 Agent 自主改进路径。这个直觉在方向上与 2025-2026 年最前沿的研究完全吻合(Earned Autonomy、Comprehension-Gated Economy、Bottom-Up Reputation MARL)。
🔄 修正:
- "它就会自主改进"需要限定条件。自主改进在策略层(如何做任务)相对可实现;在元策略层(如何学习)更难;在架构层(改变自身结构)目前几乎不可能且风险极高。
- "可操作反馈"必须来自独立于 Agent 的系统,否则产生 reward hacking。如果反馈可以被 Agent 的行为所影响,那它对改进没有帮助,反而会固化现有问题。
💡 新发现:
- 最反直觉的发现:信任评分系统最有价值的效果不是激励改进,而是防止过度自信导致的灾难性失败。它的主要贡献是"降级保护",而不是"升级激励"。
- Reasoning Integrity Score 的数据很惊人:50-69% 的"正确"输出包含错误推理。这意味着基于输出结果的评分会系统性地高估 Agent 的真实能力。要获得准确的信任评分,必须评估推理过程,不只是结果。
- "可失去的东西"要有效,必须是 Agent 自己无法生产的外部资源。这排除了大量看起来直觉合理的设计(如让 Agent 积累自己可以消费的"积分")。
❌ 推翻:
- 没有发现先验中有完全被推翻的核心假设。主要的修正是加了约束条件,而不是否定方向本身。
最大认知偏差:
低估了"评估者独立性"这个约束的严格程度。直觉上,给 Agent 一个评分系统就够了;实际上,评分系统本身的架构(特别是 Agent 能否影响评估)比评分算法本身更重要。
最有解释力的模型:
激励结构(Incentive Structure)。在这个领域,"技术上可行"不是瓶颈,"激励上一致"才是。每一个失败案例(reward hacking、Self-Rewarding 退化、Goodhart's Law 失效)都可以追溯到激励结构设计错误——Agent 被激励去优化指标,不是去优化真实目标。
信息来源¶
-
Schachter, Ken. "Earned Autonomy: A Beta-Distribution Model for Agent Trust Scoring." Hacker News discussion, 2025. 来源类型:社区讨论. 访问日期:2026-04-18. ↩↩
-
Taleb, Nassim Nicholas. Skin in the Game: Hidden Asymmetries in Daily Life. Random House, 2018. 来源类型:书籍/思想原典. ↩
-
"The Comprehension-Gated Agent Economy: A Robustness-First Architecture for AI Economic Agency." arXiv:2603.15639, 2026-02-27. https://arxiv.org/abs/2603.15639. 来源类型:论文. 检索来源:SearXNG (semantic scholar). ↩↩
-
Zhang et al. "Darwin Gödel Machine: Self-Improving AI with Evolutionary Pressure." arXiv preprint, 2026. 来源类型:论文. 检索来源:SearXNG. ↩↩
-
"Ev-Trust: Evolutionary Game Theory for Agent Trust in Multi-Agent Systems." arXiv:2512.16167, 2025. https://arxiv.org/abs/2512.16167. 来源类型:论文. 检索来源:SearXNG. ↩
-
"Reasoning Integrity Score: Right-for-Wrong-Reasons Detection in LLM Outputs." arXiv:2601.00513, 2026. https://arxiv.org/abs/2601.00513. 来源类型:论文. 检索来源:SearXNG. ↩
-
"Biologically-Inspired Multi-Dimensional Trust Framework for AI Agents." arXiv:2504.15301, 2025. https://arxiv.org/abs/2504.15301. 来源类型:论文. 检索来源:SearXNG (semantic scholar). ↩↩
-
Shinn, Noah, and Beck Labash. "Reflexion: Language Agents with Verbal Reinforcement Learning." arXiv:2303.11366, 2023. https://arxiv.org/abs/2303.11366. 来源类型:论文. 检索来源:SearXNG. ↩↩
-
Madaan, Aman, et al. "Self-Refine: Iterative Refinement with Self-Feedback." arXiv:2303.17651, 2023. https://arxiv.org/abs/2303.17651. 来源类型:论文. 检索来源:SearXNG. ↩↩
-
Liu, Hao, et al. "Chain of Hindsight Aligns Language Models with Feedback." arXiv:2302.02676, 2023. https://arxiv.org/abs/2302.02676. 来源类型:论文. 检索来源:SearXNG. ↩
-
Shao et al. "VCG-Based Mechanism Design for Multi-Agent Trust Enforcement." 2025. 来源类型:论文. 检索来源:SearXNG (semantic scholar). ↩
-
Chiu et al. "AI Labor Markets and Reputation Mechanisms for Autonomous Agents." 2025. 来源类型:论文. 检索来源:子 Agent 调研. ↩↩
-
Bai, Yuntao, et al. "Constitutional AI: Harmlessness from AI Feedback." arXiv:2212.08073, 2022. https://arxiv.org/abs/2212.08073. 来源类型:论文(Anthropic). 检索来源:SearXNG. ↩↩
-
NIST. "Artificial Intelligence Risk Management Framework (AI RMF 1.0)." National Institute of Standards and Technology, 2023. https://www.nist.gov/system/files/documents/2023/01/26/AI RMF 1.0.pdf. 来源类型:行业标准. ↩
-
Christiano, Paul, et al. "Deep Reinforcement Learning from Human Preferences." arXiv:1706.03741, 2017. https://arxiv.org/abs/1706.03741. 来源类型:论文(OpenAI). ↩
-
Ouyang, Long, et al. "Training Language Models to Follow Instructions with Human Feedback." arXiv:2203.02155, 2022. https://arxiv.org/abs/2203.02155. 来源类型:论文(OpenAI/InstructGPT). ↩
-
Pan, Alexander, et al. "The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models." arXiv:2201.03544, 2022. https://arxiv.org/abs/2201.03544. 来源类型:论文. 检索来源:SearXNG. ↩
-
Yuan, Weizhe, et al. "Self-Rewarding Language Models." arXiv:2401.10020, 2024. https://arxiv.org/abs/2401.10020. 来源类型:论文(Meta). 检索来源:SearXNG. ↩
-
"Bottom-Up Reputation Promotes Cooperation with Multi-Agent Reinforcement Learning." arXiv:2502.01971, 2025-02-04. https://arxiv.org/abs/2502.01971. 来源类型:论文. 检索来源:SearXNG (semantic scholar). ↩↩
-
"Adaptive Data Flywheel: Applying MAPE Control Loops to AI Agent Improvement." arXiv:2510.27051, 2025-10-30. https://arxiv.org/abs/2510.27051. 来源类型:论文(NVIDIA). 检索来源:SearXNG (semantic scholar). ↩
-
"Bit-politeia: An AI Agent Community in Blockchain." arXiv:2601.11583, 2026-01-01. https://arxiv.org/abs/2601.11583. 来源类型:论文. 检索来源:SearXNG (semantic scholar). ↩
-
Xu et al. "Metacognitive Co-Regulation Loop for Multi-Agent Systems." arXiv preprint, 2026. 来源类型:论文. 检索来源:子 Agent 调研. ↩
-
"AURA: An Agent Autonomy Risk Assessment Framework." arXiv:2510.15739, 2025-10-17. https://arxiv.org/abs/2510.15739. 来源类型:论文. 检索来源:SearXNG (semantic scholar). ↩
-
"Mechanism-Based Intelligence (MBI): Differentiable Incentives for Rational Coordination and Guaranteed Alignment in Multi-Agent Systems." arXiv:2512.20688, 2025-12-22. https://arxiv.org/abs/2512.20688. 来源类型:论文. 检索来源:SearXNG (semantic scholar). ↩
-
"Reinforcement Learning with Reputation-Based Adaptive Exploration Promotes the Evolution of Cooperation." arXiv:2604.08103, 2026-04-09. https://arxiv.org/abs/2604.08103. 来源类型:论文. 检索来源:SearXNG (semantic scholar). ↩
-
"Cooperation and Reputation Dynamics with Reinforcement Learning." arXiv:2102.07523, 2021-02-15. https://arxiv.org/abs/2102.07523. 来源类型:论文. 检索来源:SearXNG (semantic scholar). ↩
-
"Multi-Agent Trust Evaluation Model based on Reinforcement Learning." IEEE, 2021-08-01. http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9623010. 来源类型:论文. 检索来源:SearXNG (semantic scholar). ↩
-
Ganguli, Deep, et al. "The Capacity for Moral Self-Correction in Large Language Models." arXiv:2302.07459, 2023. https://arxiv.org/abs/2302.07459. 来源类型:论文(Anthropic). 检索来源:子 Agent 调研. ↩
-
Ng, Andrew Y., et al. "Policy Invariance under Reward Transformations: Theory and Application to Reward Shaping." ICML 1999. 来源类型:论文(经典/奠基性). ↩
-
"TRiSM for Agentic AI: A Review of Trust, Risk, and Security Management in LLM-based Agentic Multi-Agent Systems." arXiv:2506.04133, 2025-06-04. https://arxiv.org/abs/2506.04133. 来源类型:综述论文. 检索来源:SearXNG (semantic scholar). ↩