Week 06 - 01 - lecture-1视图:倍速:

空格=播放/暂停当前页 · Tab=切换 简短/详细/深入 · 红色「深入」为重点页的深度讲解

第 1 / 20 页

这一页讲的是机器人如何行走,重点是从 AI 模型到真实机器人之间的转化过程。

第 2 / 20 页

这一页讲的是教机器人行走的挑战,与训练动物的对比。重点在于机器人没有本能,且由金属制成。

第 3 / 20 页

这一页讲的是四足机器人 (Quadruped Robots),展示了四种不同类型的机器人,包括 Unitree Go2、ANYbotics 的 ANYmal 和 Boston Dynamics 的 Spot。

第 4 / 20 页

这一页讲的是如何控制机器人,通过关节角度定义姿态。主要包括关节的自由度(DoF)和姿态表示的示例。

第 5 / 20 页

这一页讲的是机器人行走的简单解决方案及其局限性。主要内容包括预定义轨迹的概念、周期性动作的局限性,以及在复杂环境中需要泛化能力。

第 6 / 20 页

这一页讲的是机器人控制的统一视角,包括观察、模型和动作循环的流程。主要内容包括观察数据的输入、模型处理生成动作向量,以及机器人执行动作的循环过程。

第 7 / 20 页

这一页讲的是输入观测(Input Observation),包括机器人状态和控制指令的关键数据。主要包括角速度(base_ang_vel)、重力投影(projected_gravity)、控制指令(commands)等。

第 8 / 20 页

这一页讲的是基于物理的控制(Physics-based control)方法及其局限性。关键点包括利用物理计算运动、模型预测控制(MPC)的应用,以及设计难度和表达能力不足的问题。

第 9 / 20 页

这一页讲的是基于学习的控制方法,包括强化学习 (Reinforcement Learning) 和模仿学习 (Imitation Learning)。强化学习通过试错和奖励机制改进,模仿学习通过专家演示进行监督学习。

第 10 / 20 页

这一页讲的是模仿学习(Imitation Learning)中的行为克隆(Behavior Cloning, BC)。重点包括 BC 的监督学习性质、公式描述以及其适用场景和局限性。

第 11 / 20 页

这一页讲的是强化学习 (Reinforcement Learning),重点包括马尔科夫决策过程 (Markov Decision Process)、回报计算和折扣回报的公式。

第 12 / 20 页

这一页讲的是 Actor-Critic 方法的结构和工作流程。主要包括 Actor 和 Critic 的角色分工、策略更新和目标计算。

第 13 / 20 页

这一页讲的是模仿学习(Imitation Learning, IL)与强化学习(Reinforcement Learning, RL)的比较。主要包括两者的核心理念、数据需求、优势及局限性。

第 14 / 20 页

这一页讲的是四足机器人完成复杂任务所需的技能,包括感知 (Perception)、估计 (Estimation)、规划 (Planning) 和运动 (Locomotion)。

第 15 / 20 页

这一页讲的是机器人训练的流程,重点介绍模拟训练、Sim2Real技术和真实环境微调三个阶段。

第 16 / 20 页

这一页讲的是仿真训练(Simulation Training)。主要内容包括常用仿真器、Genesis模型的关节级控制以及目标位置设定。

第 17 / 20 页

这一页讲的是Sim2Real(从模拟到现实)技术的关键挑战与解决方法,包括延迟、滤波、领域随机化和跨模拟器测试。

第 18 / 20 页

这一页讲的是机器人步态控制的评估,比较不同随机性条件下的运动表现。主要包括基础评估、延迟影响以及加入动态随机性(DR)和低通滤波(LPF)的效果。

第 19 / 20 页

这一页讲的是高层规划与低层控制的关系。重点包括高层语言目标、中层技能与子目标,以及低层关节控制策略的分层架构。

第 20 / 20 页

这一页讲的是 Q&A 环节,提供听众提问和交流的机会。