这一页讲的是 Lecture 12 的主题:Embodied AI 和 AI Teams,包括 Polly、BigDog 和机器人足球。
这一页讲的是 Lecture 12 的主题,主要内容是 Embodied AI(具身人工智能)和 AI Teams(人工智能团队)。Embodied AI 是指那些具有物理实体的人工智能系统,例如机器人,它们能够与物理世界交互。标题中提到的 Polly 和 BigDog 是具体的具身 AI 示例,可能涉及它们的设计、功能和应用领域。此外,机器人足球是一个典型的 AI 团队应用场景,展示了多个机器人如何协同工作以完成复杂任务。这一页的背景信息包括课程编号 COMPSCI 713,授课教师为 Xinyu Zhang,课程材料改编自 Jim Warren 教授,所属机构是奥克兰大学计算机科学学院,时间为 2026 年第一学期。这节课可能会探讨具身 AI 的技术挑战和团队协作的关键因素,例如传感器数据处理、行动规划以及团队内的通信和协调。
这一页讲的是 Polly 的导航与控制系统,采用基于外观的实用模型,而非完整符号化世界模型。首先,Polly 系统存储了一系列帧(frames)记录,描述地标在不同方向和距离下的外观。这些记录分辨率较低,但视觉搜索效率却很高。其次,它使用粗略的旋转里程计(rotational odometry)来跟踪方向,通过计算左转和右转的角度变化来确定航向。此外,Polly 能识别区域(districts)以恢复定位。例如,当它向东移动并看到前方有左转时,可以判断自己位于南部走廊,并将 y 坐标设置为 10,这有助于避免迷路。最后,Polly 的访客通过挥动脚来请求导览服务,因为系统没有语音识别功能,摄像头仅关注人们的脚或腿部位置。这种导航方式强调基于外观的实用性,而非复杂的符号化模型。
第 7 / 33 页
这一页讲的是 Allen 机器人及其分层控制系统。重点包括使用声纳传感器避障、分层行为设计(Avoid、Wander、Explore),以及其简单编程实现智能行为。
这一页讲的是 Allen 机器人,它由 Allen 于1986年设计,用来展示 Brooks 提出的分层控制系统(layered control system)的理念。Allen 使用声纳传感器(sonar sensors)测量障碍物距离,并通过三个行为层次实现智能导航:第一层是 Avoid(避开),根据障碍物距离计算阻止力,越近阻力越大;第二层是 Wander(漫游),随机选择一个方向并保持约10秒;第三层是 Explore(探索),朝向宽阔空间的方向移动。机器人通过综合这三层的力量来决定行动方向。结果表明,这种设计无需复杂的规划或丰富的知识,仅通过简单的编程即可实现稳健的漫游行为。这种方法为智能机器人提供了新的思路,强调通过简单的规则实现复杂行为的可能性。
这一页讲的是 Allen 机器人的三层分层控制架构(Layered Control Architecture),这是 Brooks 最有影响力的工程思想之一,也是理解后续所有具身机器人设计的基础。Allen 用声呐传感器获取障碍物距离信息,然后通过三层行为叠加来决定运动方向。第 0 层「避障 Avoid」:如果有障碍物靠近,就偏转逃离,偏转力大小与距离的平方成反比——距离越近,排斥力越强,这是最低级、优先级最高的反射行为。第 1 层「漫游 Wander」:选一个随机方向并保持大约 10 秒,这给机器人提供了基础的探索驱动力。第 2 层「探索 Explore」:主动朝开阔空间的方向移动,让机器人倾向于进入未知区域而非原地转圈。三层同时运行,最终方向由三层产生的「力」叠加合成。这个架构的美妙之处在于:不需要全局地图,不需要规划,不需要丰富的知识表示,只靠极简的编程就能产生看起来「智能」的漫游行为。这是一种反应式架构(reactive architecture),与传统的「感知—建模—规划—行动」管道形成鲜明对比。考试常见考法:给出行为描述,让你说出它属于哪一层;或者问「这种架构与经典 AI 规划的区别是什么?」关键区别是:经典 AI 需要世界模型和推理,而分层反应架构把「智能」下放到了传感器-行动器的直接映射。易错点:层与层之间不是顺序执行,而是并发运行并叠加输出,不能理解为「如果第 0 层不触发就执行第 1 层」。
这一页讲的是机器人物理架构的设计。首先,它使用了两冲程水冷内燃发动机(类似于廉价摩托车的发动机)来驱动液压泵,提供动力。这种设计通过高压油驱动伺服阀和液压缸来控制腿部执行器,确保机器人腿部动作的精确性。其次,传感器在腿部测量关节位置和施加的力,惯性传感器则负责测量机器人身体的角度和加速度。这些传感器的数据为控制系统提供实时反馈。最后,机器人配备了一个双层控制系统(two-level control system),由车载计算机运行,用于协调动力和传感器数据以实现稳定的运动控制。右侧的图展示了机器人各部分的布局,包括发动机、液压泵、热交换器、传感器和腿部执行器等关键部件。整个机器人质量约为109公斤,是一个复杂但高效的物理架构设计。
这一页讲的是嵌入式 AI 平台的发展及其潜力。主要包括其在复杂环境中的移动能力、高级应用支持,以及对技术炒作的谨慎态度。
这一页讲的是嵌入式 AI 平台(Embodied AI platforms)的进步及其应用潜力。首先,这些平台在穿越复杂环境方面越来越强,例如腿式系统可能进入轮式系统无法到达的地方,比如杂乱的家庭环境,而不仅仅是医院走廊。低层次的运动和导航可以通过软计算(Soft computing)、机器学习(Machine learning)以及任务特定的捷径来实现。其次,这些平台能够支持更高层次的应用,例如经典规划(Classical planning)、卷积神经网络视觉(CNN vision)、语音识别(Speech recognition)以及基于大型语言模型(LLM)的查询响应功能。此外,幻灯片提醒我们对技术炒作保持谨慎态度,尽管许多视频展示了机器人惊人的行为,但这些技术可能尚未转化为可用的产品。右侧的图片展示了一个嵌入式 AI 机器人在新加坡樟宜机场的实际应用场景,这表明这些技术正在逐步走向现实应用。
这一页讲的是 Brooks 1990 年那篇著名论文「大象不下棋(Elephants Don't Play Chess)」的核心论点及其对 AI 方法论的深远影响。Brooks 的论点是:传统 AI 把国际象棋这类高级符号推理当作智能的标杆,但这是错位的——进化在地球上花了十几亿年才从单细胞生命演化出简单动物,寒武纪大爆发后又花了几亿年才有大型动物,而人类级别的智能只是最近区区百万年的事。这意味着:感知、运动、社会协调等「低级」能力才是智能的根基,是进化花时间磨炼的核心。象棋式的符号推理只是这棵树上很晚才长出来的一根新枝。因此,通用 AI 也应该从「蟑螂、老鼠、运动控制、社会协调」这些简单行为出发,从下往上构建,而不是从「定理证明器」出发往下分解。这为本讲的整体叙事提供了方法论支柱:从 Polly 的简单视觉导航,到 BigDog 的动态平衡,再到 Boids 的群集,再到机器人团队协调,都是在沿着「从简单能力向上组合」这条路走。考试考法通常是概念辨析:「Brooks 的 situated AI 和传统符号 AI 的核心分歧是什么?」答案要点是:situated AI 强调智能根植于物理环境中的实时反应,不需要(也不应该先建立)完整的世界模型;而传统符号 AI 假设智能体有一个显式的内部世界表示并在其上推理。易错点:不要把这篇论文理解为「反对高级 AI」,而应理解为「主张从基础能力出发组合出高级 AI」。
这一页讲的是机器人如何协调合作。首先,协调方式受到比赛规则的强烈影响。例如,机器人是否可以通过 WiFi 访问共享数据模型(shared data model),是否有俯视摄像头(overhead camera view)提供全局视角,或者机器人之间是否可以直接通信、通过控制计算机交流,还是仅能使用身体信号。这些因素决定了机器人能否高效合作。其次,机器人自身的感知能力可能非常有限,例如行走平台不稳定以及视野范围狭窄。在这种情况下,每个机器人只能维护一个粗略的概率模型(probabilistic model)来估计比赛状态。这种模型通过概率推断帮助机器人在信息受限的情况下做出决策。举例来说,如果机器人无法看到全局比赛状态,它可能需要根据有限的传感器数据预测队友的位置和球的位置,从而制定行动策略。
这一页讲的是机器人足球中多智能体协调的挑战与策略层次,是多智能体系统从理论走向实际工程的具体案例。协调方式高度依赖比赛联盟的规则:有些联盟允许通过 WiFi 共享全局数据模型,有些提供头顶摄像机的全局视图,有些则限制机器人只能用肢体动作互相传递信息。在最受限的情况下,每个机器人只有自己的局部视野——而步行平台本身不稳定、视野角度窄,感知极为有限,因此每个机器人可能只维护一个粗糙的概率性游戏状态模型(probabilistic model of game state)。协调策略分三个层次:集体行为层(collective behaviors)——如传球策略:先预测对手拦截路径,得出候选传球点,再按场上位置和战术价值给这些传球点打分;阵型策略层(positioning strategies)——选择同时覆盖进攻和防守机会的阵型;角色分配层(role-based strategies)——根据比赛实时态势动态分配角色(如前锋、后卫、守门员)。后两种方法在队友对当前局面有足够相近的感知时效果最好——如果各自的状态估计偏差太大,阵型和角色分配就会失调。这与 STEAM 的 JPG 思想呼应:团队协调依赖的不只是行动承诺,更是感知和信念的同步。考试考法:对比单智能体与多智能体系统的挑战差异;或问「为什么在感知受限的联盟中,概率状态模型比确定性模型更合适?」——因为每个机器人的局部观测是不完整且含噪声的,用概率分布来表示不确定性比强行给出确定状态更鲁棒。
这一页讲的是 AI 的发展总结。首先,许多早期重要的 AI 成就是在嵌入式控制器中实现的,但因为它们隐藏在日常设备中而容易被忽视。例如,智能控制器广泛应用于洗衣机、吸尘器、汽车和飞机中,包括防抱死刹车系统(ABS)和自动驾驶仪,即使人类仍在高层次上控制车辆。其次,许多 AI 方法从自然界中借鉴了灵感,例如遗传算法(Genetic algorithms)和神经网络(neural networks),这些技术模仿了自然界中的进化和神经系统的工作原理。最后,尽管机器人技术尚未完全达到科幻电影中的水平,但其核心构件已经存在,并在特定应用中得到了广泛使用。这表明机器人技术正在逐步走向成熟,但仍需进一步发展以实现更广泛的应用。