空格=播放/暂停当前页 · Tab=切换 简短/详细/深入 · 红色「深入」为重点页的深度讲解

这一页讲的是 COMPSCI 713 课程的最后一次课程安排,包括研讨会展示、SET 评价和考试问答环节。
这一页讲的是 COMPSCI 713 课程的最终课程安排。主要内容包括三个部分:第一是 Seminar presentations,即学生的研讨会展示,可能是对课程内容的总结或研究项目的分享;第二是 SET Evaluations,这部分是对课程的教学质量进行反馈和评价,帮助课程改进;第三是 Exam Q&A,提供学生与教师互动的机会,解决考试相关的问题。这些环节旨在总结课程内容、提升学生的学习体验,并为考试做好准备。这一页还标注了日期为 2026 年 6 月 4 日,表明这是课程的最后一次正式会议,由 COMPSCI 713 教学团队组织。

这一页讲的是研讨会报告的安排。主要包括报告的顺序、SET评估和考试问答环节。
这一页讲的是研讨会报告的安排。首先列出了六位报告人的顺序及主题,包括:1. Cheryll Aldridge 的 NEAT Pacman,涉及神经进化技术在游戏中的应用;2. Garima Bhatia 的 Fuzzy Logic flight control,探讨模糊逻辑在飞行控制中的使用;3. Xinye He 的 InstructGPT,介绍指令式生成模型;4. Shiqing Guan 的 Alpha Fold,讲解蛋白质结构预测技术;5. Christopher Tipper 的 Deep Generative Model for Nowcasting,分析深度生成模型在短期预测中的应用;6. Charles Wu 的 Chain-of-Thought Reasoning,讨论链式推理在人工智能中的作用。此外,还提到 SET评估(教学评价)和考试问答环节。这页内容为听众提供了清晰的会议流程和主题安排,帮助大家提前了解报告内容并做好准备。

这一页讲的是课程评估(Course Set Evaluation),强调学生完成教学评估的重要性。主要内容包括评估的匿名性、反馈的价值,以及如何提供建设性的意见。
这一页讲的是课程评估(Course Set Evaluation),目的是鼓励学生完成教学评估(Student Evaluation of Teaching, SET)。评估的重点是让学生提供有价值的反馈,包括课程中哪些部分有效、哪些部分需要改进。建议避免中立的反馈,而是提供有建设性的正面或负面意见,这样的反馈对课程优化更有帮助。评估是匿名的,完成过程非常简单,仅需几分钟。页面右侧提供了二维码,学生可以通过手机扫描直接访问评估链接,或者使用页面底部的链接(https://go.blueja.io/HOtqfhL1nE-GUirVDj0P7g)。这一评估不仅能帮助当前课程的改进,也对未来学生的学习体验有积极影响。

这一页讲的是考试的基本信息,包括时间、地点、形式和需要携带的物品。重点提到考试是纸质形式,占总成绩的30%,以及必须携带文具和校园卡。
这一页讲的是考试的基本信息。考试时间定在6月23日下午2点,持续两小时,地点在校园内,考生可以在考试前一天下午1点通过SSO查找具体考场。考试形式为纸质考试,总分为30分,占最终成绩的30%。考生必须携带蓝色或黑色笔(建议多带一支备用)、铅笔以及学生校园卡,如果忘记带校园卡将被罚款25美元。此外,考生可以携带瓶装水和两张双面A4纸的手写笔记,笔记可以是中期考试时的笔记或新笔记。如果笔记是通过平板手写后打印的也可以,但不接受打印的键盘输入笔记。这些要求与中期考试一致,确保考生准备充分。

这一页讲的是考试结构,包括题目分布和考查范围。重点是考试总分30分,其中1/3分数来自前六周内容,2/3分数来自后五周内容。考查范围包括所有课程和指定论文。
这一页讲的是考试结构和内容范围。考试总共包含10道题目,总分30分,其中可能包括一些子问题。分数分布为:约1/3(9分)来自前六周的内容,由Xinyu讲解;约2/3(21分)来自后五周的内容,由Thomas讲解。考查范围涵盖所有课程内容以及部分指定的研究论文,但不包括客座讲座内容。指定的论文包括:Alpha Fold、Fuzzy Logic flight control、NEAT Pacman、InstructGPT、Deep Generative Model for Nowcasting以及Chain-of-Thought Reasoning。这些论文涉及机器学习、逻辑控制、生成模型等领域的重要研究成果,考试可能会要求学生理解其核心思想和应用场景。

这一页讲的是考试复习和问答的相关信息,主要包括复习材料的来源、如何讨论答案,以及往年考试题目作为练习的注意事项。
这一页讲的是考试复习和问答的安排。首先,针对 Xinyu 的部分,提供了中期测试和学期中测试的复习材料;针对 Thomas 的部分,可以在 Canvas 平台上查看示例题目。其次,过去两年的考试题目也可以在 Canvas 上找到,但不提供答案,鼓励学生在 Ed Discussion 平台上与同学讨论。建议学生在提问时采用开放性的方式,例如“我认为这个问题的答案可能是[...],您能给我一些反馈吗?”而不是直接问“这个问题的答案是什么?”最后提醒,往年考试题目可能无法完全反映今年考试的题型风格,因此这些题目主要用于帮助学生练习和理解课程内容,而不是作为预测考试的依据。

这一页讲的是考试问答和研究论文的复习重点,包括论文背景、动机、研究问题及方法等关键内容。
这一页讲的是考试问答环节的内容,重点介绍在研究论文中需要关注的几个方面。首先是论文的背景(Context),即研究的整体环境和相关领域的现状。其次是研究的动机(Motivation),说明为什么这个问题值得研究。接着是研究问题或文献空白(Research question/Literature gap),这里需要明确研究的核心问题,并指出现有研究的不足之处。然后是主要方法(Main methodology),例如能否解释论文中提出的架构或过程,或者能否清晰地说明核心公式和算法。接下来是方法与研究问题或空白之间的关系(Relation between methodology and research question/gap),强调方法如何解决研究问题或填补空白。最后是论文内容与课程主题的关联(Relation to main topics of the course),确保论文的研究方向与课程内容一致。这些要点帮助学生在考试中更好地理解和解释研究论文的核心内容。
这一页讲的是考试中研究论文题的答题框架。期末考试中有几篇指定论文需要掌握(AlphaFold、Fuzzy Logic flight control、NEAT Pacman、InstructGPT、Deep Generative Model for Nowcasting、Chain-of-Thought Reasoning),这一页明确告诉你考官想考察哪几个维度。第一是 Context(背景):这篇论文解决的是哪个领域、哪类问题,大环境是什么。第二是 Motivation(动机):为什么要做这个研究,现有方法有什么不足。第三是 Research question / Literature gap(研究问题与文献空白):作者明确想填补哪个空缺,或者回答哪个具体问题。第四也是最核心的是 Main methodology(核心方法论):你需要能解释所提出的架构或流程,能讲清主要公式或算法。这是考试最容易出大题的地方,比如 AlphaFold 的 Evoformer + structure module 如何把多序列比对信息转化为三维坐标,InstructGPT 的 SFT 加上 reward model 加上 PPO 微调三步走,NEAT 怎么用进化算法同时演化网络拓扑和权重,Chain-of-Thought 如何通过 few-shot prompt 让模型逐步推理。第五是 Relation between methodology and research question(方法与问题的联系):为什么这个方法能解决那个问题,二者如何对应。第六是 Relation to main course topics(与课程核心主题的关联):比如 NEAT 联系到遗传算法与神经网络,InstructGPT 联系到强化学习。易错点在于很多同学只记住方法名称,却说不清楚它的工作原理,考试偏偏最爱问"请解释该架构/算法";还有一个常见错误是把动机和研究问题混为一谈,动机是"现有方法有哪些局限",研究问题是"本文具体要解答什么",二者要分清楚。备考建议:对每篇论文用这六个维度做一张一页纸的总结,就能覆盖绝大多数可能考到的角度。

这一页讲的是搜索算法与非玩家角色(NPC)的行为匹配问题。主要包括 BFS、DFS、UCS、Greedy Best-First Search 和 A Search 的应用,以及观察到的三种行为特点。
这一页讲的是搜索算法与非玩家角色(NPC)行为的匹配问题。题目描述了一个游戏开发者测试 NPC 在迷宫中寻找路径的决策策略,并列出了五种搜索算法:广度优先搜索(BFS)、深度优先搜索(DFS)、一致代价搜索(UCS)、贪婪最佳优先搜索(Greedy Best-First Search)和 A 搜索。页面提供了三种观察到的行为:a) NPC沿着单一走廊前进,直到遇到死胡同才回头,这种行为通常与深度优先搜索(DFS)相关,因为它优先深入探索一个路径,且内存占用少;b) NPC倾向于选择看起来最直接通往宝藏房间的路径,这种行为通常与贪婪最佳优先搜索(Greedy Best-First Search)相关,因为它基于目标方向的启发式;c) NPC在危险环境中选择累计健康损失最小的路径,这种行为通常与 A 搜索相关,因为它结合了路径代价和启发式进行最优决策。这一页旨在帮助学生理解不同搜索算法的特点及其实际应用场景。
这一页讲的是期末考试样题一,考察如何识别不同搜索算法的行为特征。题目设定是 NPC(非玩家角色)在地牢中寻路,三种 NPC 分别对应三种不同的搜索策略,要求你从 BFS、DFS、UCS、Greedy Best-First、A 中选出最匹配的。行为 a 描述的 NPC 会一直沿单条走廊向深处冲,遇到死路才回头,内存占用很低——这是 Depth-First Search(DFS)的典型特征:它沿一条路径走到底,不展开其他分支,所以内存是 O(d)(d 是深度),但不保证最优解,在图中可能陷入无限循环或走很远的弯路。行为 b 的 NPC 靠"魔法方向感"优先走向看起来离目标最近的位置,这是 Greedy Best-First Search:它只用启发式函数 h(n)(对目标距离的估计)来排队,完全不考虑已走过的代价,所以快但不保证最优,会被误导性的启发式带进死胡同。行为 c 在有陷阱代价的版本里,NPC 总从累计健康损耗最少的路径继续探索——这是 Uniform-Cost Search(UCS):它按路径实际代价 g(n) 排优先队列,保证找到代价最低的路径,但不使用启发式,所以会往所有方向均匀扩展,比 A 慢。考试易错点:很多人会把行为 c 答成 A。关键区分在于 UCS 只看已知代价 g(n),而 A 用 f 等于 g 加 h,同时结合到目标的估计距离。如果题目中没有提到"启发式"或"预估方向感",就不是 A。另一个易错是把 Greedy Best-First 和 A 混淆——前者只看 h(n),后者综合 g(n) 加 h(n)。考试常见题型还有:给你一个搜索树要求写出各算法的展开顺序、判断启发式是否 admissible(永不高估真实代价)或 consistent(满足三角不等式),以及 A 什么条件下保证最优解(启发式 admissible 且图中无负权边)。

这一页讲的是强化学习从人类反馈 (RLHF) 的框架及其与马尔可夫决策过程 (MDP) 的映射关系。重点包括状态、动作、策略和奖励的定义。
这一页讲的是强化学习从人类反馈 (Reinforcement Learning from Human Feedback, RLHF) 的框架及其与马尔可夫决策过程 (Markov Decision Process, MDP) 的映射关系。首先,RLHF 是一种用于微调语言模型的方法,目标是通过人类反馈优化模型输出。页面展示了四种选项 (A, B, C, D),每个选项都描述了状态 (State)、动作 (Action)、策略 (Policy) 和奖励 (Reward) 的具体定义。例如,选项 A 的状态是用户提示 (User prompt),动作是人类对两个输出的偏好选择,策略是奖励模型 (Reward model),奖励是比较分数 (Comparison score)。同时,右侧的流程图分为三个步骤:第一步收集示例数据并训练监督策略,第二步收集比较数据并训练奖励模型,第三步通过强化学习优化策略。这个流程图清晰地展示了 RLHF 的工作机制,例如如何通过人类排名训练奖励模型,以及如何使用奖励模型更新策略。这种方法对于提升语言模型的准确性和人类偏好适应性非常重要。
这一页讲的是期末考试样题二,考察强化学习(RL)框架如何映射到 InstructGPT 的 RLHF(Reinforcement Learning from Human Feedback)流程。这道题的正确答案是选项 C:State 是用户的 prompt,Action 是模型生成的回复,Policy 是语言模型本身,Reward 是由人类偏好数据训练出来的 reward model 给出的分数。理解这道题需要先把 RL 的 MDP 框架搞清楚:在马尔可夫决策过程里,智能体(agent)处于某个状态(state),选择一个动作(action),执行后得到奖励(reward),并转移到新状态,而策略(policy)就是从状态到动作的映射。映射到 RLHF:语言模型就是 policy,它接收 prompt(state),输出一个完整的回复(action),然后 reward model 对这个回复打分(reward)。reward model 本身是一个独立的神经网络,用人类对两个输出进行偏好比较的数据训练而来,它不是 policy。InstructGPT 的完整三步流程是:第一步 SFT(Supervised Fine-Tuning),用人工标注的高质量回复微调基础语言模型;第二步训练 reward model,让人类对模型输出两两比较,学出一个能打分的评估器;第三步用 PPO(一种策略梯度算法)把语言模型的输出往高分方向优化,同时加一个 KL 散度惩罚防止模型偏离 SFT 版本太远。常见错误:选项 A 把 reward model 错当成 policy,这是最典型的混淆——reward model 是评委,不是决策者;选项 B 把 action 定义为单个 token,这在某些 RL 框架里成立(token-level MDP),但在 InstructGPT 的论文框架中 action 是整个回复;选项 D 把 rank 当成 action 也不对,rank 是 reward model 的输出,不是语言模型的 action。这道题还涉及一个重要概念:RLHF 属于 on-policy 还是 off-policy?PPO 是 on-policy 算法,每轮更新后就要重新采样,所以 RLHF 是 on-policy 训练。