Week 09 - 02 - Zhongsheng___20260514___CS713___Guest_Lecture

Week 09 - 02 - Zhongsheng___20260514___CS713___Guest_Lecture视图:倍速:

空格=播放/暂停当前页 · Tab=切换简短/详细/深入 · 红色「深入」为重点页的深度讲解

第 1 / 71 页

这一页讲的是强化学习在大型语言模型（LLMs）中的应用，主题包括从后训练到技能开发及代理系统的构建。

第 2 / 71 页

这一页讲的是个人简介，包括研究方向和联系方式。主要内容有：作者是博士生，研究兴趣是自演化 AI 和多智能体系统，提供了个人主页和导师实验室链接。

第 3 / 71 页

这一页讲的是课程的主题，包括RL（强化学习）的定义、2026年LLM（大型语言模型）与智能体的趋势，以及RL在LLM后训练中的重要作用。

第 4 / 71 页

这一页讲的是 AI Agent 工具和概念的熟悉程度调查。主要提到了一些工具名称，例如 Claude Code、GitHub Copilot 和 Codex。

第 5 / 71 页

这一页讲的是 OpenClaw，一个能够执行实际任务的 AI。主要功能包括清理收件箱、发送邮件、管理日历和航班值机，支持通过 WhatsApp、Telegram 等聊天应用操作。

第 6 / 71 页

这一页讲的是 FARS (Fully Automated Research System) 的运行成果。主要内容包括系统完成了 166 篇论文，耗时 417 小时，总成本 $186k。平均评分为 5.2/10，接近短期博士研究项目的质量。

第 7 / 71 页

这一页讲的是 AI 发展的两个重要阶段：2025 年是 AI Agents 的时代，2026 年是 Agentic AI builders 的时代。

第 8 / 71 页

这一页讲的是 2026 年人工智能代理(Agents)的趋势。重点包括从聊天机器人到工具型代理的演进，以及企业对 AI 执行完整任务的需求。

第 9 / 71 页

这一页讲的是 AI Agent 的定义与核心特点。它不仅仅是一个更大的聊天机器人，还具有目标、观察环境、规划行动、使用工具以及反馈修正的能力。

第 10 / 71 页

这一页讲的是 Harness Engineering 是 AI 智能代理的核心。主要内容包括约束机制设计、反馈循环、工作流控制和持续改进。强调“人类引导，代理执行”的核心理念。

第 11 / 71 页

这一页讲的是为什么智能体问题与强化学习（RL）相关。关键点包括智能体的决策序列、环境变化和反馈机制。

第 12 / 71 页

这一页讲的是强化学习(RL)在决策中的基本组成部分，包括Agent、Environment、State、Action和Reward。

第 13 / 71 页

这一页讲的是强化学习 (RL) 的核心思想，通过试错 (Trial-and-Error) 学习经验。主要包括智能体尝试动作、接收反馈并调整行为。

第 14 / 71 页

这一页讲的是强化学习（RL）在日常生活中的应用。通过训练狗和学骑自行车的例子，说明学习是通过反馈（feedback）而非明确指令（explicit instructions）完成的。

第 15 / 71 页

这一页讲的是强化学习(RL)中的捉迷藏游戏示例。主要包括两组角色：Seekers和Hiders，以及他们的奖励机制。

第 16 / 71 页

这一页讲的是随机初始状态下的团队行为。主要内容包括双方随机行动、可执行的动作以及缺乏协调策略。

第 17 / 71 页

这一页讲的是一个“捉迷藏”游戏，展示了人工智能在模拟环境中进行交互的过程。关键点包括游戏规则和2.69百万步的训练。

第 18 / 71 页

这一页讲的是 Hider 构建安全房间的策略。主要包括避免负奖励、使用物品建造安全房间以及锁住箱子。

第 19 / 71 页

这一页讲的是 Seeker 使用 ramp 学习突破安全房间的过程。主要强调学习行为和道具使用。

第 20 / 71 页

这一页讲的是躲藏者(hiders)如何通过策略隐藏斜坡(ramp)，并最终学会“解除”寻找者(seekers)。

第 21 / 71 页

这一页讲的是强化学习（RL）的关键洞察和定义。主要内容包括复杂行为的自发性、试错过程的重要性，以及奖励信号的指导作用。

第 22 / 71 页

这一页讲的是2026年的前沿大型语言模型，包括代表性系统和趋势。主要提到OpenAI、Anthropic和Google DeepMind的模型，以及其他活跃模型家族。趋势是模型在编码、工具使用和长上下文推理等方面的评估越来越重要。

第 23 / 71 页

这一页讲的是LLM（大型语言模型）的基本工作原理及未来发展。主要内容包括它如何通过神经网络预测下一个词语、生成完整段落，以及2026年LLM的参数规模和训练数据量。

第 24 / 71 页

这一页讲的是 Token 的定义及其在 LLMs 中的作用。主要内容包括 Token 的估算规则，如字符和单词的关系，以及大规模数据的 Token 数量。

第 25 / 71 页

这一页讲的是Transformer架构及其核心创新点。主要包括自注意力(Self-Attention)机制和堆叠层(Stacked Layers)的设计，帮助模型理解上下文和抽象信息。

第 26 / 71 页

这一页讲的是生成过程的序列性及其对强化学习的意义。主要强调生成答案是多个小决策的序列，且不同序列会导致不同结果。

第 27 / 71 页

这一页讲的是预训练（Pre-training）的基本概念及其目标。主要内容包括定义 LLM 为预测下一个词（next-token predictor），通过大规模文本数据进行训练，以及预训练的核心目标是预测下一个词。

第 28 / 71 页

这一页讲的是预训练模型的能力与局限性。它学习了语法、世界知识和文本模式，但不保证遵循指令或可靠推理。

第 29 / 71 页

这一页讲的是监督微调(SFT)的作用及其局限性。SFT通过模仿教学，让预训练模型从简单的文本续写转变为能够生成“好”响应的助手。

第 30 / 71 页

这一页讲的是SFT的一个例子，展示如何应用到情感分类任务中。主要强调SFT不仅限于指令跟随，还能用于特定的监督学习任务。

第 31 / 71 页

这一页讲的是指令微调（Instruction Tuning）的一个特殊示例，展示了如何通过对话格式的训练数据调整模型行为。

第 32 / 71 页

这一页讲的是为什么表面看似合理的推理可能不够准确，通过一个折扣计算的例子对比 RL 前后的推理方式。

第 33 / 71 页

这一页讲的是从模仿到反馈的关键转变。重点包括预训练提供语言能力，SFT赋予助手行为，下一步是通过反馈改进模型。

第 34 / 71 页

这一页讲的是模型训练方法的转变，比较了SFT训练和结果优化的不同。SFT通过模仿人类答案学习，结果优化则依赖反馈和评分来调整模型行为。

第 35 / 71 页

这一页讲的是模型后训练优化的具体例子，展示如何通过强化学习优化代码生成结果。

第 36 / 71 页

这一页讲的是强化学习（RL）的优势：适用于尝试多种解决方案并容易判断效果的任务。

第 37 / 71 页

这一页讲的是将 LLM 的生成过程视为一个轨迹（trajectory）。比较了强化学习（RL）与 LLM 的关键概念，并提出了一个桥接观点。

第 38 / 71 页

这一页讲的是为什么 LLM 的强化学习不同于传统强化学习。主要对比两者环境、奖励机制、动作空间、状态定义和探索成本的差异，并举了代码生成的例子。

第 39 / 71 页

这一页讲的是如何判断任务中哪个步骤应得奖励或承担责任。重点包括数学推理错误、代码测试失败、工具调用后成功及奖励模型的高分是否合理。

第 40 / 71 页

这一页讲的是反馈来源如何决定训练方法。主要展示了四种反馈来源及其对应方法和适用场景。

第 41 / 71 页

这一页讲的是偏好强化学习中的模型和常用术语。重点包括 Actor/Policy 生成动作，Reward Model 评分答案，以及 RLHF 等缩写的含义。

第 42 / 71 页

这一页讲的是强化学习（RL）在大语言模型（LLM）后训练中的路线图。主要包括四个阶段：偏好对齐、可验证推理、代理行为及其对应的反馈信号、方法和改进方向。

第 43 / 71 页

这一页讲的是 RLHF 的经典对齐方法，包括五个步骤和其优势。重点是通过人类反馈优化模型行为。

第 44 / 71 页

这一页讲的是通过 RLHF 优化助手的回答风格。重点是奖励模型如何选择更支持性和有帮助的回答，并通过 PPO-style RLHF训练模型。

第 45 / 71 页

这一页讲的是偏好优化在不使用完整强化学习情况下的应用。主要提到PPO风格的RLHF成本较高，DPO方法更简单稳定，并强调偏好优化连接了模仿学习与完整强化学习。

第 46 / 71 页

这一页讲的是 DPO (Direct Preference Optimization) 的应用示例，重点是如何根据偏好对模型进行更新。选定答案更直观易懂，拒绝答案过于复杂。

第 47 / 71 页

这一页讲的是 PPO-style RLHF 和 DPO 两种训练管道的对比。主要内容包括 PPO-style RLHF 使用奖励模型评分更新策略，而 DPO 直接基于偏好对答案进行优化。

第 48 / 71 页

这一页讲的是 RLVR (Reinforcement Learning from Verifiable Rewards)。核心思想是使用可自动验证的奖励，强调其优点和局限性。

第 49 / 71 页

这一页讲的是 RLVR 方法如何解决数学问题，重点在自动验证答案的机制。

第 50 / 71 页

这一页讲的是为什么 GRPO 在推理强化学习中变得流行。主要讨论了 PPO 的瓶颈和 GRPO 的直觉优势，包括无须单独的 critic 模型、内存成本更低以及更易扩展。

第 51 / 71 页

这一页讲的是 GRPO 方法的直觉和示例，展示如何通过组内比较奖励正确答案并抑制错误答案。

第 52 / 71 页

这一页讲的是PPO-style RLHF与GRPO-style reasoning RL的比较。主要内容包括两者的用途、奖励机制、优势与风险。

第 53 / 71 页

这一页讲的是 DeepSeek-R1 风格的推理强化学习 (Reasoning RL)。关键点包括 RLVR 对数学、代码和推理性能的提升，以及训练模式的五个步骤。

第 54 / 71 页

这一页讲的是奖励黑客 (Reward Hacking) 的问题及优化的潜在风险。主要强调模型优化奖励信号 (reward signal) 而非真实目标，并列举了四种常见问题。

第 55 / 71 页

这一页讲的是如何减少奖励作弊 (Reward Hacking)。主要方法包括使用可验证奖励、采用多样化奖励、进行对抗性评估、监测奖励与质量的差距，以及设计更好的环境。

第 56 / 71 页

这一页讲的是从答案奖励到环境奖励的转变。主要比较了单一答案强化学习(Single-answer RL)与代理强化学习(Agentic RL)的特点。

第 57 / 71 页

这一页讲的是如何通过 harness 工具使智能体的行为可训练。主要包括将复杂的真实交互转化为结构化数据、定义动作(Actions)、观察(Observations)、奖励(Rewards)和数据(Data)。

第 58 / 71 页

这一页讲的是 Agentic RL Environments，强调环境类型及其重要性。

第 59 / 71 页

这一页讲的是使用 Agentic RL 修复代码的例子。任务环境包括一个失败的测试，代理通过观察环境逐步修复问题，最终获得奖励。

第 60 / 71 页

这一页讲的是为什么技能比原始轨迹更高效。原始轨迹冗长且难以传递，技能可以压缩经验，帮助代理简化学习过程。

第 61 / 71 页

这一页讲的是 SkillRL 的核心思想及其递归技能增强的流程。重点包括收集轨迹、提取技能、更新技能库和继续强化学习。

第 62 / 71 页

这一页讲的是 SkillRL 如何构建可复用技能，通过解决重复失败模式优化任务完成流程。

第 63 / 71 页

这一页讲的是在线策略蒸馏 (Online Policy Distillation, OPD)。主要内容包括 RLVR 的稀疏奖励问题、学生策略的在线采样、教师信号的指导作用，以及探索与效率之间的平衡。

第 64 / 71 页

这一页讲的是 OPD 在探索过程中的指导作用。主要包括学生轨迹、信号与在线行为，以及 OPD 的帮助。

第 65 / 71 页

这一页讲的是测试时计算(Test-Time Compute)在推理中的作用。主要内容包括训练时强化学习(RL)的目标、测试时计算的功能，以及常见模式。

第 66 / 71 页

这一页讲的是测试时计算(Test-Time Compute)与训练的区别。主要包括硬编码提示(hard coding prompt)的过程和关键区别。

第 67 / 71 页

这一页讲的是优化方向与机制，涵盖RLHF、RLVR等方法，统一主题是改善长时间行为的反馈。

第 68 / 71 页

这一页讲的是强化学习中的开放研究问题，包括奖励分配、奖励设计、技能发现等六个核心问题。

第 69 / 71 页

这一页讲的是总结强化学习与大语言模型（LLM）的训练与优化方法。主要包括 SFT 模仿与 RL 优化的区别、生成模型的策略轨迹、后训练的可扩展反馈以及技能驱动的前沿发展。

第 70 / 71 页

这一页讲的是关于强化学习(RL)与监督微调(SFT)的比较及相关问题。包括奖励验证、信用分配难度及防止奖励作弊的讨论。

第 71 / 71 页

这一页讲的是总结与感谢。主要表达对听众的时间和关注表示感谢。