Week 12 - 01 - CS713 Final lecture

空格=播放/暂停当前页 · Tab=切换简短/详细/深入 · 红色「深入」为重点页的深度讲解

第 1 / 9 页

这一页讲的是 COMPSCI 713 课程的最后一次课程安排，包括研讨会展示、SET 评价和考试问答环节。

这一页讲的是 COMPSCI 713 课程的最终课程安排。主要内容包括三个部分：第一是 Seminar presentations，即学生的研讨会展示，可能是对课程内容的总结或研究项目的分享；第二是 SET Evaluations，这部分是对课程的教学质量进行反馈和评价，帮助课程改进；第三是 Exam Q&A，提供学生与教师互动的机会，解决考试相关的问题。这些环节旨在总结课程内容、提升学生的学习体验，并为考试做好准备。这一页还标注了日期为 2026 年 6 月 4 日，表明这是课程的最后一次正式会议，由 COMPSCI 713 教学团队组织。

第 2 / 9 页

这一页讲的是研讨会报告的安排。主要包括报告的顺序、SET评估和考试问答环节。

这一页讲的是研讨会报告的安排。首先列出了六位报告人的顺序及主题，包括：1. Cheryll Aldridge 的 NEAT Pacman，涉及神经进化技术在游戏中的应用；2. Garima Bhatia 的 Fuzzy Logic flight control，探讨模糊逻辑在飞行控制中的使用；3. Xinye He 的 InstructGPT，介绍指令式生成模型；4. Shiqing Guan 的 Alpha Fold，讲解蛋白质结构预测技术；5. Christopher Tipper 的 Deep Generative Model for Nowcasting，分析深度生成模型在短期预测中的应用；6. Charles Wu 的 Chain-of-Thought Reasoning，讨论链式推理在人工智能中的作用。此外，还提到 SET评估（教学评价）和考试问答环节。这页内容为听众提供了清晰的会议流程和主题安排，帮助大家提前了解报告内容并做好准备。

第 3 / 9 页

这一页讲的是课程评估(Course Set Evaluation)，强调学生完成教学评估的重要性。主要内容包括评估的匿名性、反馈的价值，以及如何提供建设性的意见。

这一页讲的是课程评估(Course Set Evaluation)，目的是鼓励学生完成教学评估(Student Evaluation of Teaching, SET)。评估的重点是让学生提供有价值的反馈，包括课程中哪些部分有效、哪些部分需要改进。建议避免中立的反馈，而是提供有建设性的正面或负面意见，这样的反馈对课程优化更有帮助。评估是匿名的，完成过程非常简单，仅需几分钟。页面右侧提供了二维码，学生可以通过手机扫描直接访问评估链接，或者使用页面底部的链接(https://go.blueja.io/HOtqfhL1nE-GUirVDj0P7g)。这一评估不仅能帮助当前课程的改进，也对未来学生的学习体验有积极影响。

第 4 / 9 页

这一页讲的是考试的基本信息，包括时间、地点、形式和需要携带的物品。重点提到考试是纸质形式，占总成绩的30%，以及必须携带文具和校园卡。

这一页讲的是考试的基本信息。考试时间定在6月23日下午2点，持续两小时，地点在校园内，考生可以在考试前一天下午1点通过SSO查找具体考场。考试形式为纸质考试，总分为30分，占最终成绩的30%。考生必须携带蓝色或黑色笔（建议多带一支备用）、铅笔以及学生校园卡，如果忘记带校园卡将被罚款25美元。此外，考生可以携带瓶装水和两张双面A4纸的手写笔记，笔记可以是中期考试时的笔记或新笔记。如果笔记是通过平板手写后打印的也可以，但不接受打印的键盘输入笔记。这些要求与中期考试一致，确保考生准备充分。

第 5 / 9 页

这一页讲的是考试结构，包括题目分布和考查范围。重点是考试总分30分，其中1/3分数来自前六周内容，2/3分数来自后五周内容。考查范围包括所有课程和指定论文。

这一页讲的是考试结构和内容范围。考试总共包含10道题目，总分30分，其中可能包括一些子问题。分数分布为：约1/3（9分）来自前六周的内容，由Xinyu讲解；约2/3（21分）来自后五周的内容，由Thomas讲解。考查范围涵盖所有课程内容以及部分指定的研究论文，但不包括客座讲座内容。指定的论文包括：Alpha Fold、Fuzzy Logic flight control、NEAT Pacman、InstructGPT、Deep Generative Model for Nowcasting以及Chain-of-Thought Reasoning。这些论文涉及机器学习、逻辑控制、生成模型等领域的重要研究成果，考试可能会要求学生理解其核心思想和应用场景。

第 6 / 9 页

这一页讲的是考试复习和问答的相关信息，主要包括复习材料的来源、如何讨论答案，以及往年考试题目作为练习的注意事项。

这一页讲的是考试复习和问答的安排。首先，针对 Xinyu 的部分，提供了中期测试和学期中测试的复习材料；针对 Thomas 的部分，可以在 Canvas 平台上查看示例题目。其次，过去两年的考试题目也可以在 Canvas 上找到，但不提供答案，鼓励学生在 Ed Discussion 平台上与同学讨论。建议学生在提问时采用开放性的方式，例如“我认为这个问题的答案可能是[...]，您能给我一些反馈吗？”而不是直接问“这个问题的答案是什么？”最后提醒，往年考试题目可能无法完全反映今年考试的题型风格，因此这些题目主要用于帮助学生练习和理解课程内容，而不是作为预测考试的依据。

第 7 / 9 页

这一页讲的是考试问答和研究论文的复习重点，包括论文背景、动机、研究问题及方法等关键内容。

这一页讲的是考试问答环节的内容，重点介绍在研究论文中需要关注的几个方面。首先是论文的背景（Context），即研究的整体环境和相关领域的现状。其次是研究的动机（Motivation），说明为什么这个问题值得研究。接着是研究问题或文献空白（Research question/Literature gap），这里需要明确研究的核心问题，并指出现有研究的不足之处。然后是主要方法（Main methodology），例如能否解释论文中提出的架构或过程，或者能否清晰地说明核心公式和算法。接下来是方法与研究问题或空白之间的关系（Relation between methodology and research question/gap），强调方法如何解决研究问题或填补空白。最后是论文内容与课程主题的关联（Relation to main topics of the course），确保论文的研究方向与课程内容一致。这些要点帮助学生在考试中更好地理解和解释研究论文的核心内容。

这一页讲的是考试中研究论文题的答题框架。期末考试中有几篇指定论文需要掌握（AlphaFold、Fuzzy Logic flight control、NEAT Pacman、InstructGPT、Deep Generative Model for Nowcasting、Chain-of-Thought Reasoning），这一页明确告诉你考官想考察哪几个维度。第一是 Context（背景）：这篇论文解决的是哪个领域、哪类问题，大环境是什么。第二是 Motivation（动机）：为什么要做这个研究，现有方法有什么不足。第三是 Research question / Literature gap（研究问题与文献空白）：作者明确想填补哪个空缺，或者回答哪个具体问题。第四也是最核心的是 Main methodology（核心方法论）：你需要能解释所提出的架构或流程，能讲清主要公式或算法。这是考试最容易出大题的地方，比如 AlphaFold 的 Evoformer + structure module 如何把多序列比对信息转化为三维坐标，InstructGPT 的 SFT 加上 reward model 加上 PPO 微调三步走，NEAT 怎么用进化算法同时演化网络拓扑和权重，Chain-of-Thought 如何通过 few-shot prompt 让模型逐步推理。第五是 Relation between methodology and research question（方法与问题的联系）：为什么这个方法能解决那个问题，二者如何对应。第六是 Relation to main course topics（与课程核心主题的关联）：比如 NEAT 联系到遗传算法与神经网络，InstructGPT 联系到强化学习。易错点在于很多同学只记住方法名称，却说不清楚它的工作原理，考试偏偏最爱问"请解释该架构/算法"；还有一个常见错误是把动机和研究问题混为一谈，动机是"现有方法有哪些局限"，研究问题是"本文具体要解答什么"，二者要分清楚。备考建议：对每篇论文用这六个维度做一张一页纸的总结，就能覆盖绝大多数可能考到的角度。

第 8 / 9 页

这一页讲的是搜索算法与非玩家角色(NPC)的行为匹配问题。主要包括 BFS、DFS、UCS、Greedy Best-First Search 和 A Search 的应用，以及观察到的三种行为特点。

这一页讲的是搜索算法与非玩家角色(NPC)行为的匹配问题。题目描述了一个游戏开发者测试 NPC 在迷宫中寻找路径的决策策略，并列出了五种搜索算法：广度优先搜索(BFS)、深度优先搜索(DFS)、一致代价搜索(UCS)、贪婪最佳优先搜索(Greedy Best-First Search)和 A 搜索。页面提供了三种观察到的行为：a) NPC沿着单一走廊前进，直到遇到死胡同才回头，这种行为通常与深度优先搜索(DFS)相关，因为它优先深入探索一个路径，且内存占用少；b) NPC倾向于选择看起来最直接通往宝藏房间的路径，这种行为通常与贪婪最佳优先搜索(Greedy Best-First Search)相关，因为它基于目标方向的启发式；c) NPC在危险环境中选择累计健康损失最小的路径，这种行为通常与 A 搜索相关，因为它结合了路径代价和启发式进行最优决策。这一页旨在帮助学生理解不同搜索算法的特点及其实际应用场景。

这一页讲的是期末考试样题一，考察如何识别不同搜索算法的行为特征。题目设定是 NPC（非玩家角色）在地牢中寻路，三种 NPC 分别对应三种不同的搜索策略，要求你从 BFS、DFS、UCS、Greedy Best-First、A 中选出最匹配的。行为 a 描述的 NPC 会一直沿单条走廊向深处冲，遇到死路才回头，内存占用很低——这是 Depth-First Search（DFS）的典型特征：它沿一条路径走到底，不展开其他分支，所以内存是 O(d)（d 是深度），但不保证最优解，在图中可能陷入无限循环或走很远的弯路。行为 b 的 NPC 靠"魔法方向感"优先走向看起来离目标最近的位置，这是 Greedy Best-First Search：它只用启发式函数 h(n)（对目标距离的估计）来排队，完全不考虑已走过的代价，所以快但不保证最优，会被误导性的启发式带进死胡同。行为 c 在有陷阱代价的版本里，NPC 总从累计健康损耗最少的路径继续探索——这是 Uniform-Cost Search（UCS）：它按路径实际代价 g(n) 排优先队列，保证找到代价最低的路径，但不使用启发式，所以会往所有方向均匀扩展，比 A 慢。考试易错点：很多人会把行为 c 答成 A。关键区分在于 UCS 只看已知代价 g(n)，而 A 用 f 等于 g 加 h，同时结合到目标的估计距离。如果题目中没有提到"启发式"或"预估方向感"，就不是 A。另一个易错是把 Greedy Best-First 和 A 混淆——前者只看 h(n)，后者综合 g(n) 加 h(n)。考试常见题型还有：给你一个搜索树要求写出各算法的展开顺序、判断启发式是否 admissible（永不高估真实代价）或 consistent（满足三角不等式），以及 A 什么条件下保证最优解（启发式 admissible 且图中无负权边）。

第 9 / 9 页

这一页讲的是强化学习从人类反馈 (RLHF) 的框架及其与马尔可夫决策过程 (MDP) 的映射关系。重点包括状态、动作、策略和奖励的定义。

这一页讲的是强化学习从人类反馈 (Reinforcement Learning from Human Feedback, RLHF) 的框架及其与马尔可夫决策过程 (Markov Decision Process, MDP) 的映射关系。首先，RLHF 是一种用于微调语言模型的方法，目标是通过人类反馈优化模型输出。页面展示了四种选项 (A, B, C, D)，每个选项都描述了状态 (State)、动作 (Action)、策略 (Policy) 和奖励 (Reward) 的具体定义。例如，选项 A 的状态是用户提示 (User prompt)，动作是人类对两个输出的偏好选择，策略是奖励模型 (Reward model)，奖励是比较分数 (Comparison score)。同时，右侧的流程图分为三个步骤：第一步收集示例数据并训练监督策略，第二步收集比较数据并训练奖励模型，第三步通过强化学习优化策略。这个流程图清晰地展示了 RLHF 的工作机制，例如如何通过人类排名训练奖励模型，以及如何使用奖励模型更新策略。这种方法对于提升语言模型的准确性和人类偏好适应性非常重要。

这一页讲的是期末考试样题二，考察强化学习（RL）框架如何映射到 InstructGPT 的 RLHF（Reinforcement Learning from Human Feedback）流程。这道题的正确答案是选项 C：State 是用户的 prompt，Action 是模型生成的回复，Policy 是语言模型本身，Reward 是由人类偏好数据训练出来的 reward model 给出的分数。理解这道题需要先把 RL 的 MDP 框架搞清楚：在马尔可夫决策过程里，智能体（agent）处于某个状态（state），选择一个动作（action），执行后得到奖励（reward），并转移到新状态，而策略（policy）就是从状态到动作的映射。映射到 RLHF：语言模型就是 policy，它接收 prompt（state），输出一个完整的回复（action），然后 reward model 对这个回复打分（reward）。reward model 本身是一个独立的神经网络，用人类对两个输出进行偏好比较的数据训练而来，它不是 policy。InstructGPT 的完整三步流程是：第一步 SFT（Supervised Fine-Tuning），用人工标注的高质量回复微调基础语言模型；第二步训练 reward model，让人类对模型输出两两比较，学出一个能打分的评估器；第三步用 PPO（一种策略梯度算法）把语言模型的输出往高分方向优化，同时加一个 KL 散度惩罚防止模型偏离 SFT 版本太远。常见错误：选项 A 把 reward model 错当成 policy，这是最典型的混淆——reward model 是评委，不是决策者；选项 B 把 action 定义为单个 token，这在某些 RL 框架里成立（token-level MDP），但在 InstructGPT 的论文框架中 action 是整个回复；选项 D 把 rank 当成 action 也不对，rank 是 reward model 的输出，不是语言模型的 action。这道题还涉及一个重要概念：RLHF 属于 on-policy 还是 off-policy？PPO 是 on-policy 算法，每轮更新后就要重新采样，所以 RLHF 是 on-policy 训练。