Week 04 - 02 - W4L2_Decision_tree_and

第 1 / 65 页

这一页讲的是决策树和集成学习的主题，包括手动创建、自动生成和集成方法。

第 2 / 65 页

这一页讲的是决策树及其扩展方法，包括 CART 和集成学习方法。重点是决策森林、Bagging 和 Boosting。

第 3 / 65 页

这一页讲的是 Decision Trees 决策树，展示了一个分类水果的示例。关键点包括决策树的结构、节点的条件判断以及分类结果。

第 4 / 65 页

这一页讲的是决策树 (Decision Trees)。主要介绍如何通过宽度和高度的条件分类测试样本，并最终决定其类别。

第 5 / 65 页

这一页讲的是决策树 (Decision Trees)，通过递归地根据属性进行分裂来预测结果。图示展示了分类过程及树结构。

第 6 / 65 页

这一页讲的是决策树 (Decision Trees)，一种非参数的监督学习技术。主要包括根节点 (Root Node)、内部节点 (Internal Node) 和叶节点 (Leaf Node)，用于通过数据特征生成决策规则。

第 7 / 65 页

这一页讲的是决策树的分类与回归。主要内容包括分类树输出离散值，叶节点值为样本中最常见类别；回归树输出连续值，叶节点值为样本目标值的平均值。

第 8 / 65 页

这一页讲的是决策树的表达能力(Expressiveness)，包括离散输入/输出和连续输入/输出两种情况。

第 9 / 65 页

这一页讲的是决策树的表达能力及其与规则的映射关系。主要内容包括如何将决策树的路径转化为规则，以及决策树与基于规则的专家系统的联系。

第 10 / 65 页

这一页讲的是知识获取与知识工程中的困难，主要分析手动构建规则的挑战。包括专家知识难以转化为显式规则、决策变量主观性、不易确保系统完整性以及规则可能不一致。

第 11 / 65 页

这一页讲的是如何构建一个有效的决策树。重点是强调决策树的实用性和构建方法。

第 12 / 65 页

这一页讲的是决策树的学习方法，重点介绍了简单决策树的复杂性以及实际中使用的贪心算法。

第 13 / 65 页

这一页讲的是选择一个好的分裂点 (split)。主要讨论为什么准确率 (accuracy) 不是好的衡量标准，并引入信息论 (information theory) 的方法。

第 14 / 65 页

这一页讲的是如何选择一个好的分裂点(split)进行决策树构建。重点包括确定性叶子(deterministic leaves)的优点、不确定性叶子(uniform leaves)的缺点，以及中间分布的讨论。

第 15 / 65 页

这一页讲的是两种硬币的抛掷结果及其可预测性。Sequence 1非常可预测，主要是0；Sequence 2较难预测，0和1分布更均匀。

第 16 / 65 页

这一页讲的是熵 (Entropy) 用来量化不确定性。重点包括熵的公式、偏置硬币和近似公平硬币的熵计算，以及熵的单位。

第 17 / 65 页

这一页讲的是如何量化不确定性，重点是熵 (Entropy) 的定义及其性质。熵在概率为 0.5 时达到最大值。

第 18 / 65 页

这一页讲的是熵 (Entropy) 的高低特性。高熵分布接近均匀，直方图平坦，值不易预测；低熵分布有明显波峰波谷，直方图起伏大，值较易预测。

第 19 / 65 页

这一页讲的是联合分布的熵 (Entropy of a Joint Distribution)，通过例子计算 H(X, Y)，结果约为 1.56 bits。

第 20 / 65 页

这一页讲的是条件熵 (Conditional Entropy) 的具体计算，重点是给定降雨 (Raining) 情况下云量 (Cloudiness) 的熵。

第 21 / 65 页

这一页讲的是条件熵 (Conditional Entropy)。主要内容包括条件熵的公式定义，以及通过表格展示概率分布的例子。

第 22 / 65 页

这一页讲的是条件熵 (Conditional Entropy)。通过一个天气的例子解释如何计算云量的熵 H(Y|X)，给定是否下雨的条件。公式和表格展示了计算过程。

第 23 / 65 页

这一页讲的是条件熵 (Conditional Entropy) 的一些重要性质。重点包括链式法则、独立性对熵的影响，以及条件熵的单调性。

第 24 / 65 页

这一页讲的是信息增益 (Information Gain)，重点在于通过观察变量 X（是否下雨）来获得关于变量 Y（是否多云）的信息量。

第 25 / 65 页

这一页讲的是信息增益 (Information Gain) 的计算及其在决策树中的应用。主要内容包括根节点熵、叶节点熵，以及分裂后的信息增益计算。

第 26 / 65 页

这一页讲的是决策树的构建过程，重点包括变量选择、分割位置选择，以及通过信息增益最大化来决定分割策略。

第 27 / 65 页

这一页讲的是决策树构建算法的流程，包括选择属性、分组样本和递归构建节点的步骤。

第 28 / 65 页

这一页讲的是决策树构建算法，包括经典算法 ID3、C4.5 和 CART。ID3 通过信息增益选择分类特征，C4.5改进了连续属性处理，CART支持分类与回归任务。

第 29 / 65 页

这一页讲的是 CART 算法的核心原理和特点，包括递归分割训练数据、贪心策略和剪枝方法。

第 30 / 65 页

这一页讲的是 Gini Impurity(基尼不纯度)的计算及其在数据集划分中的应用。主要包括计算公式和如何处理布尔或数值特征。

第 31 / 65 页

这一页讲的是 Gini impurity 的计算及其在节点分裂中的应用。主要包括根节点、子节点的 Gini impurity 计算，以及加权后的 Gini impurity 和 Gini reduction。

第 32 / 65 页

这一页讲的是 Impurity、Error 和 Entropy 的比较及应用。主要提到回归问题中用残差误差代替 Gini impurity，以及 Gini 和 Entropy 的性能差异。

第 33 / 65 页

这一页讲的是决策树的细节，包括连续属性处理、回归应用和常见问题。

第 34 / 65 页

这一页讲的是集成学习(Ensembles)，包括 Bagging 和 Boosting 两种方法。重点是这两种技术如何通过结合多个模型提升预测性能。

第 35 / 65 页

这一页讲的是集成方法 (Ensemble methods) 的概述，包括集成预测器的定义及其特点。

第 36 / 65 页

这一页讲的是集成方法(Ensemble methods)的概述,包括 Bagging 和 Boosting 的定义与区别。Bagging 是独立训练分类器,Boosting 是顺序训练分类器,两者目标不同。

第 37 / 65 页

这一页讲的是 Bias 和 Variance 的概念及其四种组合情况。Bias 代表系统误差，Variance 反映模型对数据的敏感性。低 Bias 和低 Variance 是理想情况，而高 Bias 和高 Variance 是最差情况。

第 38 / 65 页

这一页讲的是 Bagging 的动机与流程。重点包括从原始数据中采样多个训练集、训练多个模型并通过平均预测值提升性能。

第 39 / 65 页

这一页讲的是 Bagging 的基本思想。主要内容包括通过 bootstrap aggregation 方法生成多个数据集，训练多个模型并通过聚合提高预测性能。

第 40 / 65 页

这一页讲的是随机森林 (Random Forests)。它是基于袋装决策树 (bagged decision trees) 的方法，解决树之间高度相关的问题，通过特征袋装 (feature bagging) 引入额外随机性来降低相关性。

第 41 / 65 页

这一页讲的是随机森林（Random Forest）的有效性及应用特点。随机森林在分类问题中表现优异，尤其适合作为开箱即用的技术。

第 42 / 65 页

这一页讲的是 Bagging 的优点和局限性。优点包括减少过拟合和提升模型表现，局限性在于无法降低基础学习器的偏差以及分类器间仍存在相关性。

第 43 / 65 页

这一页讲的是 Boosting 方法的核心思想，包括弱分类器的概念及其训练过程。

第 44 / 65 页

这一页讲的是弱学习器 (Weak Learners) 的定义和特点。弱学习器表现略优于随机猜测，例如预测正确率为 0.6，而不是 0.5。重点关注计算效率高的弱学习器，如决策树 (Decision Trees) 和决策桩 (Decision Stump)。

第 45 / 65 页

这一页讲的是弱分类器中的决策树桩 (Decision Stumps)。它们是一种简单的分类器，基于二维数据的垂直或水平划分。

第 46 / 65 页

这一页讲的是弱分类器的局限性及如何通过 Boosting 提升性能。主要内容包括弱分类器的误差公式、权重分布的定义，以及 Boosting 的核心思想。

第 47 / 65 页

这一页讲的是 Boosting 方法，它是一种序列式集成学习技术，强调新模型专注于前模型的错误。

第 48 / 65 页

这一页讲的是 AdaBoost 的关键步骤和核心直觉。重点包括构建弱分类器序列、重新加权样本以关注困难样本、以及通过迭代减少偏差。

第 49 / 65 页

这一页讲的是 AdaBoost 算法的流程图视图，包括样本权重更新、弱分类器训练和最终预测的聚合过程。

第 50 / 65 页

这一页讲的是 AdaBoost 的训练数据。主要包括：从标注好的训练集开始；初始时所有样本权重相等；通过权重变化学习弱分类器序列。

第 51 / 65 页

这一页讲的是 AdaBoost 算法的第一轮迭代过程。主要内容包括初始化权重、训练弱分类器 h1、计算加权误差 ε1 和系数 α1，以及当前集成模型的表达式。

第 52 / 65 页

这一页讲的是 AdaBoost 算法的第二轮迭代过程。主要包括权重调整、弱分类器 h₂ 的训练、计算加权误差 ε₂ 和系数 α₂，以及更新集成模型 H(x)。

第 53 / 65 页

这一页讲的是 AdaBoost 算法的第三轮训练过程，重点包括重新调整数据权重、计算加权错误率 ε3 和权重 α3，以及最终的分类器组合公式。

第 54 / 65 页

这一页讲的是 AdaBoost 的最终分类器。关键点包括加权投票机制、弱分类器的权重分配以及组合后形成复杂决策边界。

第 55 / 65 页

这一页讲的是 AdaBoost 算法的伪代码。主要内容包括输入输出定义、样本权重初始化、迭代过程及最终分类器的生成。

第 56 / 65 页

这一页讲的是Gradient Boosting的原理与特点。重点包括它是累加式模型、使用完整的决策树而非树桩、以及优化目标函数时考虑正则化项。

第 57 / 65 页

这一页讲的是梯度提升(Gradient Boosting)的核心思想及其与 AdaBoost 的区别。重点包括通过梯度减少误差、梯度优化连接以及两种方法的不同之处。

第 58 / 65 页

这一页讲的是梯度提升算法 (Gradient Boosting Algorithm) 的伪代码流程，主要包括模型初始化、计算伪残差、训练弱学习器和更新模型等步骤。

第 59 / 65 页

这一页讲的是梯度提升 (Gradient Boosting) 和 XGBoost 的基本原理与特点。重点包括梯度提升的迭代过程和 XGBoost 的优化特性。

第 60 / 65 页

这一页讲的是树集成方法的优化概念，包括决策树、随机森林、AdaBoost 和 XGBoost 等。重点在于不同方法的特点和改进方向。

第 61 / 65 页

这一页讲的是决策树及集成学习的总结与要点。决策树简单但易过拟合，集成学习通过 Bagging 和 Boosting 提升性能。

第 62 / 65 页

这一页讲的是 Boosting 的核心思想。重点包括逐步关注难分类的样本，并非独立训练模型或减少特征。

第 63 / 65 页

这一页讲的是 Gradient Boosting 的树训练目标。重点包括：A. 最大化信息增益，B. 拟合残差（梯度），C. 降低树深度。

第 64 / 65 页

这一页讲的是 Boosting 的训练方式。重点是问题 Q3：Boosting 中模型是否是并行独立训练的。

第 65 / 65 页

这一页讲的是课程总结与互动环节，包括感谢、问答和本周测验提醒。