Week 11 - 01

第 1 / 67 页

这一页讲的是自监督学习（Self-supervised Learning）与人工智能的可持续性（Sustainability of AI）。

第 2 / 67 页

这一页讲的是致谢部分，提到幻灯片主要来源于两处：Prof Yun Sing Koh 和斯坦福大学的 CS231n 网站。

第 3 / 67 页

这一页讲的是自监督学习 (Self-Supervised Learning, SSL) 的课程大纲和学习目标，包括定义、技术和现代方法的影响。

第 4 / 67 页

这一页讲的是监督学习 (Supervised Learning) 与无监督学习 (Unsupervised Learning) 的对比。主要内容包括两者的数据类型、目标以及典型应用示例。

第 5 / 67 页

这一页讲的是监督学习（Supervised Learning）的成本问题及其替代方案。重点包括监督学习的高成本、半监督学习（SSL）的技术及其优势。

第 6 / 67 页

这一页讲的是监督学习成本高的问题，以及标注大规模数据集的费用计算。

第 7 / 67 页

这一页讲的是监督学习的高成本问题。通过计算标注 100 万张图片的费用，展示了数据标注的昂贵性，并引出半监督学习（SSL）的重要性。

第 8 / 67 页

这一页讲的是监督学习（Supervised Learning）的高成本问题。重点说明标注大规模数据集需要耗费巨额资金，计算示例显示标注 10 亿张图片可能花费超过 4100 万美元。

第 9 / 67 页

这一页讲的是监督学习（Supervised Learning）并不是人类学习的方式。主要内容包括动机、定义、SSL技术以及结论。

第 10 / 67 页

这一页讲的是 Self-Supervised Learning（自监督学习）的概念和动机。主要内容包括自监督学习的定义、与无监督学习的区别，以及其技术方法。

第 11 / 67 页

这一页讲的是自监督学习 (Self-Supervised Learning)。主要内容包括自监督学习的定义、与无监督学习和半监督学习的区别，以及其技术应用方向。

第 12 / 67 页

这一页讲的是 Self-Supervised Learning 的定义与概述。主要内容包括预训练网络的步骤、预文本任务 (pretext task) 的作用，以及编码器和解码器的功能。

第 13 / 67 页

这一页讲的是 Self-Supervised Learning 的概念和流程。主要包括两步：1. 在 pretext task 上预训练网络，2. 将 encoder 转移到 downstream tasks。

第 14 / 67 页

这一页讲的是自监督学习 (Self-Supervised Learning) 的定义与流程。主要包括两步：预训练网络解决无监督任务，以及将编码器迁移到下游任务中。

第 15 / 67 页

这一页讲的是 pretext-tasks 的类型，分为三类：Generative（生成式）、Discriminative（判别式）和 Multimodal（多模态）。

第 16 / 67 页

这一页讲的是预训练任务（pretext-tasks）的例子及其目标。主要包括图像补全、旋转预测、拼图任务和图像上色。解决这些任务能帮助模型学习有用特征，同时标签可自动生成。

第 17 / 67 页

这一页讲的是生成式建模 (Generative Modelling)。重点包括学习数据分布 p_data(x)，通过模型 p_model(x)生成新样本，并介绍相关目标和方法。

第 18 / 67 页

这一页讲的是生成学习 (Generative Learning) 和自监督学习 (Self-supervised Learning) 的区别与定义。主要内容包括两者都从数据中学习，无需人工标注；生成学习关注建模数据分布；自监督学习通过预设任务生成用于下游任务的特征。

第 19 / 67 页

这一页讲的是生成式学习与自监督学习的对比，并用一个简单的例子说明两者的差异。重点包括定义和技术方法。

第 20 / 67 页

这一页讲的是生成式学习与自监督学习的对比及其示例。主要内容包括高层语义特征的重要性、自监督学习的动机和表示学习的定义。

第 21 / 67 页

这一页讲的是如何评估自监督学习方法。重点包括不直接关注自监督任务表现，而是评估特征编码器在下游任务中的表现。

第 22 / 67 页

这一页讲的是如何评估自监督学习(Self-supervised Learning, SSL)方法。主要内容包括自监督学习的定义、使用无标签数据进行特征提取，以及基于图像的预任务应用。

第 23 / 67 页

这一页讲的是如何评估自监督学习方法。主要内容包括利用大量无标签数据训练特征提取器，以及通过少量有标签数据完成目标任务的评估过程。

第 24 / 67 页

这一页讲的是自监督学习(SSL)的广泛应用领域，包括计算机视觉、语言建模、语音合成和机器人强化学习。

第 25 / 67 页

这一页讲的是自监督学习(SSL)中的预训练任务，通过预测图像的旋转角度来训练模型。主要内容包括任务假设和图像示例。

第 26 / 67 页

这一页讲的是通过预测图像旋转角度的自监督学习任务。主要内容包括自监督学习的动机、定义，以及一种基于图像的预文本任务：让模型预测图像被旋转的具体角度。

第 27 / 67 页

这一页讲的是自监督学习 (Self-Supervised Learning, SSL) 中的图像预训练任务，通过预测图像旋转角度来训练模型。主要内容包括任务流程和目标。

第 28 / 67 页

这一页讲的是在 CIFAR10 数据集上的分类评估，比较了半监督学习和监督学习的表现。图表显示训练样本数量对测试准确率的影响。

第 29 / 67 页

这一页讲的是在 CIFAR10 数据集上的分类性能评估，比较了不同预训练方法对分类、检测和分割任务的影响。

第 30 / 67 页

这一页讲的是可视化视觉注意力(Visual Attention)的学习结果，比较监督学习模型与自监督学习模型的注意力图。

第 31 / 67 页

这一页讲的是预训练任务中的相对图块位置预测，属于自监督学习(SSL)的技术之一。重点包括图块划分、相对位置预测以及任务设计的示例。

第 32 / 67 页

这一页讲的是自监督学习 (SSL) 的图像预训练任务，特别是“拼图任务”的方法及其流程。主要内容包括任务定义、拼图排列及模型结构。

第 33 / 67 页

这一页讲的是一种自监督学习(SSL)的预训练任务：拼图问题解决 (jigsaw puzzles)。表格展示了不同方法在 PASCAL VOC 2007 数据集上的分类、检测和分割性能对比。

第 34 / 67 页

这一页讲的是一种自监督学习(SSL)的预训练任务，预测图像中缺失的像素(inpainting)。主要内容包括图像修复任务的原理和其在SSL中的应用。

第 35 / 67 页

这一页讲的是预训练任务中的像素预测（inpainting），重点是通过自监督学习（SSL）重建缺失像素。

第 36 / 67 页

这一页讲的是图像修复评估（Inpainting evaluation），重点包括自监督学习（SSL）中的技术和图像修复的输入与重建过程。

第 37 / 67 页

这一页讲的是通过重建学习图像修复 (inpainting)。重点包括损失函数的定义及其由重建损失和对抗损失组成。

第 38 / 67 页

这一页讲的是图像修复 (Inpainting) 的评估方法，重点介绍了自监督学习 (SSL) 的技术及其应用。

第 39 / 67 页

这一页讲的是图像修复评估 (Inpainting evaluation)，比较不同预训练方法对分类、检测和分割任务的效果。

第 40 / 67 页

这一页讲的是自监督学习中的预训练任务——图像上色 (image colouring)。主要内容包括利用灰度图像预测颜色信息，以及相关的技术框架。

第 41 / 67 页

这一页讲的是图像着色 (image colourisation) 的预任务，用于自监督学习 (SSL)。重点包括通过灰度图像预测彩色图像的技术。

第 42 / 67 页

这一页讲的是通过颜色化学习特征的 Split-brain Autoencoder 方法。主要内容包括技术动机、图像预训练任务以及最终特征表示的丰富性。

第 43 / 67 页

这一页讲的是通过颜色化任务学习特征的 Split-brain Autoencoder 方法。重点包括将问题转化为通道预测、强制模型进行语义决策，以及提升特征在后续任务中的表现。

第 44 / 67 页

这一页讲的是通过颜色化学习特征的 Split-brain Autoencoder 方法。重点包括图像预处理任务、现代自监督学习(SSL)技术，以及该方法如何处理多模态数据。

第 45 / 67 页

这一页讲的是使用 Split-brain Autoencoder 从图像着色中学习特征。重点包括自监督学习方法、实验结果对比，以及使用 F1 和 F2 特征的连接。

第 46 / 67 页

这一页讲的是视频上色的预训练任务，核心是利用视频中颜色的时间一致性。主要内容包括任务的定义和技术背景。

第 47 / 67 页

这一页讲的是视频着色的预训练任务 (pretext task)。主要内容包括通过视频帧间颜色的时间一致性 (temporal coherence) 来训练模型，以及这种方法如何帮助模型学习无标签的区域或物体。

第 48 / 67 页

这一页讲的是视频上色的学习方法，重点在于通过自监督学习（SSL）技术建立参考帧与目标帧之间的映射关系，并利用这些映射来复制正确的颜色信息。

第 49 / 67 页

这一页讲的是 Pointer Network 的注意力机制在图像处理中的应用，重点包括图像预训练任务和现代自监督学习（SSL）方法。

第 50 / 67 页

这一页讲的是 Pointer Network 的注意力机制应用，主要用于图像预处理任务。重点包括注意力映射公式和预测颜色的计算方法。

第 51 / 67 页

这一页讲的是 Pointer Network (Attention) 在图像任务中的应用，重点包括注意力机制、颜色预测以及损失函数的定义。

第 52 / 67 页

这一页讲的是基于 DAVIS 2017 数据集的预测跟踪示例，重点介绍 SSL (Self-Supervised Learning) 技术在对象跟踪中的应用。

第 53 / 67 页

这一页讲的是 Masked Autoencoders (MAE)，一种现代自监督学习方法。重点包括其核心思想：通过遮盖图像部分并要求模型重建缺失部分，从而学习有用的特征。

第 54 / 67 页

这一页讲的是 Masked Autoencoders (MAE) 的概念及其在自监督学习 (SSL) 中的应用。主要内容包括将图像分割成不重叠的小块并丢弃大部分信息，以及现代 SSL 方法的特点。

第 55 / 67 页

这一页讲的是 Masked Autoencoders (MAE) 的工作原理和在自监督学习 (SSL) 中的应用。主要内容包括图像分块与掩码处理，以及使用 ViT 进行编码的过程。

第 56 / 67 页

这一页讲的是 Masked Autoencoders (MAE) 的工作原理。主要内容包括将图像分块并掩盖大部分块、使用 ViT 编码剩余块，以及通过解码器预测掩盖块的像素值。

第 57 / 67 页

这一页讲的是 Masked Autoencoders (MAE) 的图像重建过程，展示输入图像的部分遮挡、重建结果和原始图像对比。重点包括 MAE 的技术特点及其在现代自监督学习 (SSL) 中的应用。

第 58 / 67 页

这一页讲的是 Masked Autoencoders (MAE) 的重建过程，重点介绍自监督学习 (SSL) 技术中的图像预处理任务和现代方法。

第 59 / 67 页

这一页讲的是 Masked Autoencoders (MAE) 的重建过程。重点包括 MAE 的输入、输出模糊但能捕捉全局结构，目标是学习强表示而非生成图像。

第 60 / 67 页

这一页讲的是 Masked Autoencoders (MAE) 的评估，重点是其在 ImageNet 分类任务中的表现。图表显示 MAE 预训练显著优于从零开始训练，并支持更大规模的 ViT 模型。

第 61 / 67 页

这一页讲的是 CLIP 模型如何匹配图像与文本。重点包括模型的动机、SSL技术及图像与文本编码器的交互。

第 62 / 67 页

这一页讲的是 CLIP 模型如何通过对比损失 (contrastive loss) 实现图像与文本的匹配。重点包括使用文本编码器和图像编码器生成共享表示空间，以及对比损失的作用。

第 63 / 67 页

这一页讲的是 CLIP 模型如何匹配图像和文本。重点包括对比损失 (Contrastive Loss)、共享表示空间和大规模训练数据的使用。

第 64 / 67 页

这一页讲的是 CLIP 模型如何将图像与文本匹配。重点包括其在下游视觉任务中的强大表现，以及随着模型规模增大性能持续提升的趋势。

第 65 / 67 页

这一页讲的是 CLIP 的零样本分类 (Zero-Shot Classification)，重点包括语言与视觉模型结合的方式、利用文本标签生成分类器，以及无需特定任务训练即可分类图像的能力。

第 66 / 67 页

这一页讲的是 CLIP 的 Zero-Shot Classification 方法。重点包括 CLIP 如何通过视觉概念与文本描述的关系进行分类，而不依赖固定的类别标签。

第 67 / 67 页

这一页讲的是自监督学习 (Self-Supervised Learning) 的总结，包括其核心概念、任务分类、评估方法及现代技术的应用。重点强调了自监督学习如何通过预任务 (Pretext Tasks) 学习特征，以及评估方法和学习范式的对比。