Week 09 - 01 - Lecture_Search2

Week 09 - 01 - Lecture_Search2视图:倍速:

空格=播放/暂停当前页 · Tab=切换简短/详细/深入 · 红色「深入」为重点页的深度讲解

第 1 / 34 页

这一页讲的是对抗搜索的两种方法：Minimax 和 MCTS。

第 2 / 34 页

这一页讲的是学习目标，包括游戏问题的特点、对抗性游戏树和搜索算法的应用。

第 3 / 34 页

这一页讲的是免责声明 (Disclaimer)，说明幻灯片内容的来源。

第 4 / 34 页

这一页讲的是游戏的类型与其特征轴，定义游戏为多代理环境，并介绍算法如何制定应对计划。

第 5 / 34 页

这一页讲的是确定性游戏的形式化定义，包括状态、玩家、动作和关键函数。重点是玩家的解决方案是一种策略 (policy)。

第 6 / 34 页

这一页讲的是零和博弈 (Zero-Sum Games) 和一般博弈 (General Games)。零和博弈中双方效用相反，一方获利另一方损失；一般博弈中双方效用独立，可能存在合作或竞争。

第 7 / 34 页

这一页讲的是游戏问题和谜题问题的区别。游戏问题涉及不可预测的对手和时间限制，而谜题问题没有对手，环境可预测，目标是通过系统搜索找到最优解。

第 8 / 34 页

这一页讲的是对抗搜索（Adversarial Search），用于解决竞争环境中的决策问题。重点是模拟双方策略并预测对手行为。

第 9 / 34 页

这一页讲的是 Single-Agent Trees (单智能体树) 的结构与搜索路径。重点包括树的分层结构、节点间的决策过程，以及最终目标值的计算。

第 10 / 34 页

这一页讲的是状态的价值 (Value of a State)。主要内容包括状态价值的定义、终止状态和非终止状态的计算方式，以及树状图示例。

第 11 / 34 页

这一页讲的是对抗性游戏树 (Adversarial Game Trees)，主要展示了游戏树结构、评分值以及决策过程的层级关系。

第 12 / 34 页

这一页讲的是井字棋(Tic-Tac-Toe)的游戏树结构及其终端状态的效用值。主要展示了 MAX 和 MIN 玩家在不同层级的决策过程，以及终端状态的评分规则。

第 13 / 34 页

这一页讲的是 Minimax 算法的值计算过程。重点包括 MAX 节点由 Agent 控制，MIN 节点由 Opponent 控制，以及终端状态值已知。

第 14 / 34 页

这一页讲的是对抗搜索(Adversarial Search)中的极小极大算法(Minimax)。主要内容包括零和游戏的特点、极小极大搜索的原理，以及递归计算极小极大值的过程。

第 15 / 34 页

这一页讲的是 Minimax 算法的示例，展示如何在决策树中选择最优策略。关键点包括最大化和最小化节点的计算过程。

第 16 / 34 页

这一页讲的是 Minimax 算法的性质，包括效率、完整性和最优性，并通过国际象棋的例子说明其计算复杂性。

第 17 / 34 页

这一页讲的是有限资源下的策略，重点是游戏树剪枝（Game tree pruning）。主要介绍了 Alpha-Beta 剪枝的原理，以及生成顺序对剪枝效果的影响。

第 18 / 34 页

这一页讲的是有限资源情况下的搜索策略，包括游戏树剪枝和有限展望两种方法。

第 19 / 34 页

这一页讲的是 Monte-Carlo Tree Search (MCTS)。它是一种用于决策和搜索的算法，特别适合在巨大搜索空间中找到最佳策略。

第 20 / 34 页

这一页讲的是 Monte-Carlo Tree Search (MCTS) 的核心思想，包括选择性搜索和通过模拟进行评估。

第 21 / 34 页

这一页讲的是蒙特卡洛搜索中的 Rollouts 方法，强调通过模拟对局评估棋盘位置的价值。主要讨论了 Rollout 策略的重要性。

第 22 / 34 页

这一页讲的是蒙特卡洛树搜索（MCTS）的基本版本，强调通过模拟选取最佳动作。

第 23 / 34 页

这一页讲的是 MCTS (Monte Carlo Tree Search) Version 0.9 的改进，通过将模拟分配给更有潜力的节点。

第 24 / 34 页

这一页讲的是 MCTS Version 1.0 的节点分配策略，包括分配到更有潜力的节点和更不确定的节点。

第 25 / 34 页

这一页讲的是 UCB (Upper Confidence Bound) 的启发式方法，重点介绍 UCB1 公式如何结合“有前途性”和“不确定性”，并讨论探索与利用的平衡。

第 26 / 34 页

这一页讲的是 MCTS Version 2.0 中的 UCT 方法，重点是如何通过 UCB 算法递归选择路径到叶节点。

第 27 / 34 页

这一页讲的是 MCTS Version 2.0 的 UCT 方法，包括选择、扩展和模拟的过程。

第 28 / 34 页

这一页讲的是 MCTS Version 2.0 中的 UCT (Upper Confidence Trees) 算法。重点包括递归应用 UCB 选择路径、节点扩展与模拟、以及胜率的回溯更新。

第 29 / 34 页

这一页讲的是 MCTS Version 2.0 的 UCT算法。主要包括 UCT 的执行步骤：选择、扩展与模拟、回溯，以及如何选择最优动作。

第 30 / 34 页

这一页讲的是蒙特卡洛树搜索（MCTS）中的UCT算法步骤，包括选择、扩展、模拟和回溯。

第 31 / 34 页

这一页讲的是 UCT 树与 Minimax 树的对比。主要说明了 Minimax 树是全宽度树，UCT 树是非对称树，并随着 N 增长趋向 Minimax 树。

第 32 / 34 页

这一页讲的是 MCTS (Monte Carlo Tree Search) 的演示资源，包括博客、代码库和视频链接。

第 33 / 34 页

这一页讲的是 AlphaGo 的核心搜索方法 Monte Carlo Tree Search (MCTS)，以及它如何结合学习模型提升效率。重点包括策略网络和价值网络的功能。

第 34 / 34 页

这一页讲的是搜索算法的分类与应用，包括 Uninformed Search、Informed Search 和 Adversarial Search 的特点及用处。